¿En qué consiste la limpieza de los datos?

La limpieza de datos es un proceso esencial para preparar los datos sin procesar para las aplicaciones de machine learning (ML) y de inteligencia empresarial (BI). Es posible que los datos sin procesar contengan numerosos errores, que pueden afectar a la precisión de los modelos de ML y dar lugar a predicciones incorrectas y a un impacto empresarial negativo. 

Algunos pasos claves para la limpieza de datos son modificar y eliminar campos de datos incompletos e incorrectos, identificar y eliminar información duplicada y datos sin relación, y corregir el formato, los valores faltantes y los errores de ortografía.

¿Por qué es importante la limpieza de datos?

Cuando una empresa usa datos para impulsar la toma de decisiones, es fundamental que use datos relevantes, completos y precisos. Sin embargo, los conjuntos de datos suelen contener errores que tienen que eliminarse antes del análisis. Pueden incluir errores de formato, como fechas, cantidades monetarias y otras unidades de medida escritas incorrectamente que puedan repercutir de forma significativa en las predicciones. Los valores atípicos son una preocupación particular, pues siempre distorsionan los resultados. Otros errores que suelen verse en los datos son los puntos de datos corruptos, información faltante y errores tipográficos. Los datos limpios pueden ser de utilidad con modelos de ML muy precisos. 

Los datos limpios y precisos son esenciales sobre todo para entrenar modelos de ML, ya que el uso de conjuntos de datos de entrenamiento de mala calidad puede llevar a predicciones erróneas en modelos implementados. Esta es la razón principal por la que los científicos de datos dedican una gran parte de su tiempo a preparar datos para el ML.

¿Cómo puede confirmar que sus datos están limpios?

El proceso de limpieza de datos consiste en varios pasos para identificar y corregir entradas de problemas. El primer paso es analizar los datos para identificar errores. Esto puede suponer el uso de herramientas de análisis cualitativo que usen reglas, patrones y límites para identificar valores no válidos. El siguiente paso es eliminar o corregir errores. 

Los pasos de limpieza de datos comunes incluyen la corrección.

  • Duplicación de datos: eliminación de información duplicada.
  • Datos irrelevantes: identificación de campos esenciales para un análisis concreto y eliminación de datos irrelevantes.
  • Valores atípicos: repercuten sustancialmente en el rendimiento del modelo, por lo que es importante identificar y determinar las medidas apropiadas.
  • Datos faltantes: notificación y eliminación o atribución de datos faltantes.
  • Errores estructurales: corrección de errores tipográficos y otras incoherencias, y elaboración de datos en función de un patrón o una convención común.

¿Cómo puede ayudar AWS con la limpieza de datos?

Amazon SageMaker Data Wrangler es una característica de Amazon SageMaker que permite preparar los datos para ML de forma rápida y fácil. Con Amazon SageMaker Data Wrangler, puede completar cada paso del flujo de trabajo de la preparación de los datos, incluida la selección, limpieza, exploración, detección de sesgos y visualización de los datos desde una interfaz visual única.

Con la herramienta de selección de datos de SageMaker Data Wrangler, puede elegir los datos que quiera de varios orígenes de datos e importarlos con un solo clic. Una vez importados los datos, puede utilizar el informe de calidad de datos e información para verificar automáticamente la calidad de los datos y detectar anomalías, como filas duplicadas y fugas de datos. SageMaker Data Wrangler contiene más de 300 transformaciones de datos integradas para que pueda normalizar, transformar y combinar características de forma rápida sin tener que escribir código.

Para empezar con SageMaker Data Wrangler, siga este tutorial.

Pasos siguientes con la limpieza de datos

Descubra otros recursos relacionados con el producto
Obtenga más información sobre los servicios de Machine Learning 
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo al nivel Gratuito de AWS.

Regístrese 
Comenzar a crear en la consola

Comience a crear en la consola de administración de AWS.

Iniciar sesión