Qu'est-ce que l'Ingénierie des fonctionnalités ?
Les caractéristiques du modèle sont les entrées que les modèles de machine learning (ML) utilisent pendant l’entraînement et l’inférence pour faire des prédictions. La précision d'un modèle ML repose sur une composition et un ensemble précis de fonctionnalités. Par exemple, dans une application de ML qui recommande une liste de lecture musicale, les caractéristiques pourraient inclure le classement des chansons, les chansons qui ont été écoutées précédemment et leur durée d'écoute. La création de fonctionnalités peut nécessiter d'importants efforts d'ingénierie. L'ingénierie des fonctionnalités implique l'extraction et la transformation de variables à partir de données brutes, telles que des listes de prix, des descriptions de produits et des volumes de ventes, afin de pouvoir utiliser des fonctionnalités pour l'entraînement et la prédiction. Les étapes nécessaires à l'élaboration des fonctionnalités comprennent l'extraction et le nettoyage des données, puis la création et le stockage des fonctionnalités.
Quels sont les défis de l'ingénierie des fonctionnalités ?
L'ingénierie des fonctionnalités est un défi, car elle implique une combinaison d'analyses de données, de connaissances du domaine d'activité et d'une certaine intuition. Lors de la création de fonctionnalités, il est tentant de se tourner immédiatement vers les données disponibles, mais il faut souvent commencer par réfléchir aux données nécessaires en parlant avec des experts, en faisant du brainstorming et en effectuant des recherches auprès de tiers. Sans passer par cet exercice, vous pourriez passer à côté de variables prédictives importantes.
Extraction des données
Création de fonctionnalités
Stockage de fonctionnalités
Comment AWS peut-il aider à l'ingénierie des fonctionnalités ?
Avec Amazon SageMaker Data Wrangler, vous pouvez simplifier le processus d'ingénierie des fonctionnalités à l'aide d'une interface visuelle unique. Grâce à l'outil de sélection de données SageMaker Data Wrangler, vous pouvez choisir les données brutes que vous voulez dans diverses sources de données et les importer en un seul clic. SageMaker Data Wrangler comprend plus de 300 transformations de données intégrées, de sorte que vous puissiez normaliser, transformer et combiner rapidement des fonctions sans avoir à écrire de code. Une fois vos données préparées, vous pouvez créer des flux ML entièrement automatisés avec Amazon SageMaker Pipelines et les sauvegarder en vue de leur réutilisation dans Amazon SageMaker Feature Store. SageMaker Feature Store est un référentiel spécialement conçu pour vous permettre de stocker et d'accéder à des caractéristiques afin de les nommer, de les organiser et de les réutiliser au sein des équipes. SageMaker Feature Store fournit un magasin unifié pour les caractéristiques pendant l'entraînement et l'inférence en temps réel sans qu'il soit nécessaire d'écrire du code supplémentaire ou de créer des processus manuels pour maintenir la cohérence des caractéristiques.