¿En qué consiste la ingeniería de características?
Las características del modelo son las entradas que los modelos de machine learning (ML) utilizan durante el entrenamiento y la inferencia para realizar predicciones. La precisión del modelo de ML depende de un conjunto y una composición exactos de características. Por ejemplo, dentro de una aplicación de ML que recomienda una lista de reproducción de música, las características podrían incluir las calificaciones de las canciones, así como qué canciones se escucharon anteriormente y durante cuánto tiempo. Es posible que la creación de características requiera un esfuerzo de ingeniería importante. La ingeniería de características implica la extracción y transformación de variables a partir de datos sin procesar, como las listas de precios, las descripciones de los productos y los volúmenes de ventas, de modo que sea posible utilizar las características para el entrenamiento y la predicción. Los pasos necesarios dentro de un proceso de ingeniería de características incluyen la extracción y la limpieza de los datos y, a continuación, la creación y el almacenamiento de las características.
¿Cuáles son los retos que plantea la ingeniería de características?
La ingeniería de características supone un reto porque implica una combinación de análisis de datos, conocimiento del dominio empresarial y algo de intuición. Al crear características, resulta tentador recurrir inmediatamente a los datos disponibles, pero a menudo conviene comenzar por reflexionar sobre los datos que se necesitan por medio de conversaciones con expertos, lluvias de ideas e investigaciones de terceros. Si no se hace este ejercicio, se podrían omitir importantes variables de predicción.
Extracción de datos
Creación de características
Almacenamiento de características
¿Cómo puede AWS ayudar con la ingeniería de características?
Gracias a Amazon SageMaker Data Wrangler, es posible simplificar el proceso de ingeniería de características mediante una única interfaz visual. Mediante la herramienta de selección de datos de SageMaker Data Wrangler, puede elegir los datos sin procesar que desee a partir de varios orígenes de datos e importarlos con tan solo un clic. SageMaker Data Wrangler contiene más de 300 transformaciones de datos incorporadas de modo que sea posible normalizar, transformar y combinar características rápidamente sin necesidad de escribir código alguno. Después de preparar los datos, se pueden crear flujos de trabajo de ML completamente automatizados con las Canalizaciones de Amazon SageMaker y guardarlos para reutilizarlos en el Almacén de características de Amazon SageMaker. El Almacén de características de SageMaker es un repositorio creado específicamente para almacenar características y obtener acceso a estas, lo que facilita nombrarlas, organizarlas y reutilizarlas en los distintos equipos de trabajo. Además, provee un almacén unificado para las características durante el entrenamiento y la inferencia en tiempo real sin la necesidad de escribir código adicional ni de crear procesos manuales para mantener las características consistentes.
Siguientes pasos en AWS
Obtenga acceso instantáneo al nivel Gratuito de AWS.
Comience a crear en la consola de administración de AWS.