Publicado en: May 6, 2022
Con Amazon SageMaker Data Wrangler, puede reducir de semanas a minutos el tiempo que se tarda en agregar y preparar datos para machine learning (ML) en Amazon SageMaker Studio, el primer entorno totalmente integrado de desarrollo (IDE) para ML. Con SageMaker Data Wrangler, es posible simplificar el proceso de preparación de datos e ingeniería de características, así como completar cada paso del flujo de trabajo de preparación de datos, incluida la selección, limpieza, exploración y visualización de datos en una única interfaz visual. SageMaker Data Wrangler funciona de forma predeterminada con ml.m5.4xlarge. SageMaker Data Wrangler incluye transformaciones y análisis de datos integrados escritos en PySpark para que pueda procesar grandes conjuntos de datos (hasta cientos de gigabytes [GB] de datos) de manera eficiente en la instancia predeterminada.
A partir de hoy, puede utilizar tipos de instancias M5 o R5 adicionales con más CPU o memoria en SageMaker Data Wrangler para mejorar el rendimiento de sus cargas de trabajo de preparación de datos. Las instancias M5 de Amazon EC2 ofrecen equilibrio entre recursos de computación, memoria y redes para una amplia variedad de cargas de trabajo. Las instancias R5 de Amazon EC2 son instancias optimizadas para memoria. Tanto los tipos de instancia M5 como R5 son adecuados para aplicaciones que requieren mucha CPU y memoria, como la ejecución de transformaciones integradas para conjuntos de datos muy grandes (hasta terabytes [TB] de datos) o la aplicación de transformaciones personalizadas escritas en Panda en conjuntos de datos medianos (hasta decenas de GB).
Con el fin de obtener más información sobre las nuevas instancias compatibles con Amazon SageMaker Data Wrangler, visite el blog o el documento de AWS y la página de precios. Para comenzar con SageMaker Data Wrangler, consulte la documentación de AWS.