Publicado en: Apr 27, 2022
Amazon SageMaker Data Wrangler reduce, de semanas a minutos, el tiempo que toma agregar y preparar datos para machine learning (ML). Con SageMaker Data Wrangler, es posible simplificar el proceso de preparación de datos e ingeniería de características, así como completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos en una única interfaz visual. Con la herramienta de selección de datos SageMaker Data Wrangler, puede seleccionar rápidamente datos de diferentes orígenes de datos, como Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, AWS Lake Formation, el almacén de características de Amazon SageMaker, Databricks Delta Lake y Snowflake.
Hoy anunciamos la disponibilidad general del muestreo aleatorio de datos al importar desde S3 y nuevas transformaciones para crear muestras aleatorias o estratificadas de sus conjuntos de datos con Amazon SageMaker Data Wrangler en Amazon SageMaker Studio. Anteriormente, tenía que escribir código para crear muestras aleatorias o muestras estratificadas de sus datos al preparar los datos para las aplicaciones de ML. Hoy, con la opción de muestreo aleatorio en la importación, puede crear una muestra aleatoria de sus datos en S3 al importar sus datos en Data Wrangler. Además, con nuestras nuevas transformaciones para el muestreo aleatorio y estratificado, puede crear los siguientes tipos de muestras para su conjunto de datos:
- Muestra aleatoria. Las muestras aleatorias son útiles cuando se tiene un conjunto de datos demasiado grande para prepararlo de forma interactiva. Con la transformación de muestreo aleatorio puede muestrear aleatoriamente una proporción de su conjunto de datos a fin de prepararlo para el machine learning.
- Muestra estratificada. Las muestras estratificadas son útiles cuando los datos contienen un evento raro (como las transacciones fraudulentas con tarjeta de crédito, que se producen en mucho menos del uno por ciento de todas las transacciones con tarjeta de crédito) y se desea preservar la proporción del evento raro en el conjunto de datos muestreados.
- Primera muestra K. Las primeras muestras K crean una muestra mediante las primeras filas K de su conjunto de datos, donde K es algún número. Por ejemplo, si K es 1000, se creará una muestra que contenga las primeras 1000 filas del conjunto de datos. Los primeros muestreos K son útiles cuando solo se necesita el esquema de columnas correcto para preparar los datos. Una ventaja adicional de la primera muestra K es que se trata de una operación extremadamente eficiente en términos de tiempo.
Para obtener más información sobre cómo muestrear sus datos con Amazon SageMaker Data Wrangler, consulte el blog.
Para empezar a utilizar las nuevas capacidades de Amazon SageMaker Data Wrangler, puede abrir Amazon SageMaker Studio tras actualizar a la versión más reciente y hacer clic en File (Archivo) > New (Nuevo) > Flow (Flujo) en el menú o en “new data flow” (nuevo flujo de datos) en el lanzador de SageMaker Studio. Para obtener más información sobre las nuevas características, consulte la documentación.