Qu'est-ce que l'Ingénierie des fonctionnalités ?

Les caractéristiques du modèle sont les entrées que les modèles de machine learning (ML) utilisent pendant l’entraînement et l’inférence pour faire des prédictions. La précision d'un modèle ML repose sur une composition et un ensemble précis de fonctionnalités. Par exemple, dans une application de ML qui recommande une liste de lecture musicale, les caractéristiques pourraient inclure le classement des chansons, les chansons qui ont été écoutées précédemment et leur durée d'écoute. La création de fonctionnalités peut nécessiter d'importants efforts d'ingénierie. L'ingénierie des fonctionnalités implique l'extraction et la transformation de variables à partir de données brutes, telles que des listes de prix, des descriptions de produits et des volumes de ventes, afin de pouvoir utiliser des fonctionnalités pour l'entraînement et la prédiction. Les étapes nécessaires à l'élaboration des fonctionnalités comprennent l'extraction et le nettoyage des données, puis la création et le stockage des fonctionnalités.

Quels sont les défis de l'ingénierie des fonctionnalités ?

L'ingénierie des fonctionnalités est un défi, car elle implique une combinaison d'analyses de données, de connaissances du domaine d'activité et d'une certaine intuition. Lors de la création de fonctionnalités, il est tentant de se tourner immédiatement vers les données disponibles, mais il faut souvent commencer par réfléchir aux données nécessaires en parlant avec des experts, en faisant du brainstorming et en effectuant des recherches auprès de tiers. Sans passer par cet exercice, vous pourriez passer à côté de variables prédictives importantes.

Extraction des données

La collecte des données est le processus de regroupement de toutes les données nécessaires pour le ML. Cette collecte peut-être fastidieuse, car les données résident dans de nombreuses sources de données : les ordinateurs portables, les entrepôts des données, le cloud, les applications et les appareils. Il peut-être difficile de trouver des moyens de se connecter à différentes sources de données. Les volumes de données augmentent également de manière exponentielle, il y a donc beaucoup de données à traiter. De plus, selon la source, les données se présentent sous un grand nombre de formats et de types différents. Par exemple, les données vidéo et les données tabulaires sont difficiles à utiliser ensemble.

Création de fonctionnalités

L'étiquetage des données est le processus consistant à identifier des données brutes (images, fichiers texte, vidéos, etc.) et à ajouter une ou plusieurs étiquettes informatives et pertinentes pour apporter du contexte qui va renseigner le modèle de ML. Les étiquettes peuvent, par exemple, indiquer si une photo contient un oiseau ou une voiture, quels mots ont été mentionnés dans un enregistrement audio ou si une radiographie a décelé une anomalie. L'étiquetage des données convient à divers cas d'utilisation, notamment la vision par ordinateur, le traitement du langage naturel et la reconnaissance vocale.

Stockage de fonctionnalités

Souvent, après le nettoyage et l'étiquetage des données, les équipes de ML explorent les données afin de s'assurer qu'elles sont correctes et prêtes pour le ML. Les visualisations telles que les histogrammes, les nuages de points, les boîtes à moustaches, les graphiques en courbes et à barre sont des outils utiles pour confirmer l'exactitude des données. De plus, les visualisations aident également les équipes de science des données à réaliser l'analyse exploratoire des données. Ce processus a recours à des visualisations afin de découvrir des tendances, de détecter des anomalies, de tester une hypothèse ou de vérifier des suppositions. L'analyse exploratoire des données ne nécessite pas de modélisation formelle. Les équipes de science des données peuvent utiliser des visualisations pour déchiffrer les données. 

Comment AWS peut-il aider à l'ingénierie des fonctionnalités ?

Avec Amazon SageMaker Data Wrangler, vous pouvez simplifier le processus d'ingénierie des fonctionnalités à l'aide d'une interface visuelle unique. Grâce à l'outil de sélection de données SageMaker Data Wrangler, vous pouvez choisir les données brutes que vous voulez dans diverses sources de données et les importer en un seul clic. SageMaker Data Wrangler comprend plus de 300 transformations de données intégrées, de sorte que vous puissiez normaliser, transformer et combiner rapidement des fonctions sans avoir à écrire de code. Une fois vos données préparées, vous pouvez créer des flux ML entièrement automatisés avec Amazon SageMaker Pipelines et les sauvegarder en vue de leur réutilisation dans Amazon SageMaker Feature Store. SageMaker Feature Store est un référentiel spécialement conçu pour vous permettre de stocker et d'accéder à des caractéristiques afin de les nommer, de les organiser et de les réutiliser au sein des équipes. SageMaker Feature Store fournit un magasin unifié pour les caractéristiques pendant l'entraînement et l'inférence en temps réel sans qu'il soit nécessaire d'écrire du code supplémentaire ou de créer des processus manuels pour maintenir la cohérence des caractéristiques.

Prochaines étapes sur AWS

Consulter les ressources supplémentaires relatives au produit
AWS Support pour l'ingénierie des fonctionnalités 
Créer un compte gratuit

Obtenez un accès instantané à l'offre gratuite AWS.

S'inscrire 
Commencez à créer sur la console

Démarrez la création dans la console de gestion AWS.

Se connecter