Publicado en: Apr 27, 2022
Amazon SageMaker Data Wrangler reduce, de semanas a minutos, el tiempo que toma agregar y preparar datos para machine learning (ML). Con SageMaker Data Wrangler, es posible simplificar el proceso de preparación de datos e ingeniería de características, así como completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos en una única interfaz visual. Con la herramienta de selección de datos SageMaker Data Wrangler, puede seleccionar rápidamente datos de diferentes orígenes de datos, como Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, AWS Lake Formation, el almacén de características de Amazon SageMaker, Databricks Delta Lake y Snowflake.
Hoy anunciamos la disponibilidad general de una característica de Informe de calidad e información de los datos dentro de Data Wrangler. Anteriormente, para obtener información sobre los datos y su calidad para ML, los científicos de datos tenían que escribir una cantidad significativa de código para importar, procesar y analizar y, finalmente, exportar esta información, un proceso largo y laborioso. Hoy en día, con el apoyo a la información sobre los datos y su calidad, los científicos de datos tienen acceso instantáneo a esta información con unos pocos clics. Este nuevo informe verifica automáticamente la calidad de los datos y detecta anomalías en ellos. Los científicos de datos y los ingenieros de datos pueden utilizar esta herramienta para aplicar de forma eficiente y rápida el conocimiento del dominio para procesar conjuntos de datos para el entrenamiento de modelos de ML.
El informe incluye las siguientes secciones:
- Estadísticas de resumen. Esta sección brinda información sobre el número de filas, características, % de faltantes, % de validez, filas duplicadas y un desglose del tipo de característica (por ejemplo, numérica o de texto).
- Advertencias sobre la calidad de los datos. Esta sección brinda advertencias que señalan anomalías en los datos e incluye elementos como: presencia de una clase minoritaria pequeña, cardinalidad de objetivo alta, etiqueta de objetivo poco frecuente, distribución de clase desequilibrada, objetivo sesgado, objetivo de cola pesada, valores atípicos en el objetivo, etiqueta frecuente de regresión, valores no válidos y más.
- Información de la columna de destino. Esta sección ofrece estadísticas sobre la columna de destino, que incluyen el % de valores válidos, el % de valores perdidos, el % de valores atípicos, estadísticas univariadas como mínimo/mediano/máximo, y también presenta ejemplos de observaciones con valores atípicos o no válidos.
- Modelo rápido. El informe de información de datos entrena automáticamente un modelo en sus datos para ofrecer una comprobación direccional del progreso de la ingeniería de características y ofrece las estadísticas del modelo asociadas en el informe.
- Importancia de la característica. Esta sección ofrece una clasificación de las características según su importancia, que se calculan automáticamente al preparar el informe de calidad e información de los datos.
- Filas anómalas y duplicadas. El informe de calidad e información de los datos detecta las muestras anómalas mediante el algoritmo Isolation forest y también hace aflorar las filas duplicadas que puedan estar presentes en el conjunto de datos.
- Información de la característica. Esta sección ofrece estadísticas resumidas para cada característica del conjunto de datos, así como la correspondiente distribución de la variable objetivo.
Para obtener más información sobre cómo crear el informe de calidad e información de los datos y cómo utilizarlo como parte de su flujo de trabajo de preparación de datos, consulte el blog.
Para empezar a utilizar las nuevas capacidades de Amazon SageMaker Data Wrangler, puede abrir Amazon SageMaker Studio tras actualizar a la versión más reciente y hacer clic en File (Archivo) > New (Nuevo) > Flow (Flujo) en el menú superior o en “New data flow” (Nuevo flujo de datos) en el lanzador de SageMaker Studio. Para obtener más información sobre las nuevas características, consulte la documentación.