Qu’est-ce que l’augmentation des données ?

L’augmentation des données est le processus qui consiste à générer artificiellement de nouvelles données à partir de données existantes, principalement pour entraîner de nouveaux modèles de machine learning (ML). Les modèles ML nécessitent des jeux de données volumineux et variés pour la formation initiale, mais il peut être difficile de trouver des jeux de données du monde réel suffisamment diversifiés en raison des silos de données, des réglementations et d’autres limitations. L’augmentation des données augmente artificiellement le jeu de données en apportant de légères modifications aux données d’origine. Les solutions d’intelligence artificielle (IA) générative sont désormais utilisées pour une augmentation rapide et de haute qualité des données dans divers secteurs.

En savoir plus sur le machine learning

En savoir plus sur l’IA générative

Pourquoi l’augmentation des données est-elle importante ?

Les modèles de deep learning s’appuient sur de grands volumes de données diverses pour développer des prévisions précises dans des contextes variés. L’augmentation des données complète la création de variations de données qui peuvent aider un modèle à améliorer la précision de ses prévisions. Les données augmentées sont essentielles à l’entraînement.

Voici certains des avantages de l’augmentation des données.

Amélioration des performances du modèle

Les techniques d’augmentation des données permettent d’enrichir les jeux de données en créant de nombreuses variantes des données existantes. Cela fournit un jeu de données plus important pour l’entraînement et permet à un modèle de rencontrer des caractéristiques plus diverses. Les données augmentées aident le modèle à mieux se généraliser aux données invisibles et à améliorer ses performances globales dans des environnements réels. 

Dépendance réduite vis-à-vis des données

La collecte et la préparation de gros volumes de données pour l’entraînement peuvent être coûteuses et prendre beaucoup de temps. Les techniques d’augmentation des données augmentent l’efficacité des petits jeux de données, réduisant ainsi considérablement la dépendance à l’égard des grands jeux de données dans les environnements d’entraînement. Vous pouvez utiliser des jeux de données plus petits pour compléter l’ensemble avec des points de données synthétiques.

Réduction du surajustement des données d’entraînement

L’augmentation des données permet d’éviter le surajustement lorsque vous entraînez des modèles ML. Le surajustement est un comportement ML indésirable dans lequel un modèle peut fournir des prévisions précises pour les données d’entraînement, mais a du mal à intégrer de nouvelles données. Si un modèle s’entraîne uniquement avec un jeu de données restreint, il peut devenir trop ajusté et donner des prévisions relatives uniquement à ce type de données spécifique. En revanche, l’augmentation des données fournit un jeu de données beaucoup plus vaste et plus complet pour l’entraînement des modèles. Cela donne l’impression que les jeux d’entraînement sont uniques aux réseaux neuronaux profonds, les empêchant d’apprendre à travailler uniquement avec des caractéristiques spécifiques. 

En savoir plus sur le surajustement

En savoir plus sur les réseaux neuronaux

Amélioration de la confidentialité des données

Si vous devez entraîner un modèle de deep learning sur des données sensibles, vous pouvez utiliser des techniques d’augmentation sur les données existantes pour créer des données synthétiques. Ces données augmentées conservent les propriétés statistiques et les pondérations des données d’entrée tout en protégeant et en limitant l’accès à l’original.

Quels sont les cas d’utilisation de l’augmentation des données ?

L’augmentation des données offre plusieurs applications dans divers secteurs, améliorant ainsi les performances des modèles ML dans de nombreux secteurs.

Soins médicaux

L’augmentation des données est une technologie utile en imagerie médicale, car elle permet d’améliorer les modèles diagnostiques qui détectent, reconnaissent et diagnostiquent les maladies sur la base d’images. La création d’une image augmentée fournit davantage de données d’entraînement pour les modèles, en particulier pour les maladies rares pour lesquelles les données sources ne varient pas. La production et l’utilisation de données synthétiques sur les patients font progresser la recherche médicale tout en respectant toutes les considérations relatives à la confidentialité des données. 

Finance

L’augmentation permet de produire des cas synthétiques de fraude, ce qui permet aux modèles de s’entraîner à détecter les fraudes avec plus de précision dans des scénarios réels. Des groupes plus importants de données d’entraînement aident à élaborer des scénarios d’évaluation des risques, renforçant ainsi le potentiel des modèles de deep learning pour évaluer les risques avec précision et prévoir les tendances futures. 

Fabrication

L’industrie manufacturière utilise des modèles ML pour identifier les défauts visuels des produits. En complétant les données du monde réel par des images augmentées, les modèles peuvent améliorer leurs capacités de reconnaissance d’images et localiser les défauts potentiels. Cette stratégie réduit également la probabilité d’expédier un projet endommagé ou défectueux vers les usines et les lignes de production.

Vente au détail

Les environnements de vente au détail utilisent des modèles pour identifier les produits et les attribuer à des catégories en fonction de facteurs visuels. L’augmentation des données peut produire des variations de données synthétiques des images de produits, créant ainsi un ensemble d’apprentissage plus varié en termes de conditions d’éclairage, d’arrière-plans d’image et d’angles des produits.

Comment fonctionne l’augmentation des données ?

L’augmentation des données transforme, édite ou modifie les données existantes pour créer des variations. Voici un bref aperçu du processus.

Exploration de jeu de données

La première étape de l’augmentation des données consiste à analyser un jeu de données existant et à comprendre ses caractéristiques. Des caractéristiques telles que la taille des images d’entrée, la distribution des données ou la structure du texte fournissent toutes un contexte supplémentaire pour l’augmentation. 

Vous pouvez sélectionner différentes techniques d’augmentation des données en fonction du type de données sous-jacent et des résultats souhaités. Par exemple, pour augmenter un jeu de données avec de nombreuses images, il faut y ajouter du bruit, les redimensionner ou les recadrer. Il est également possible d’augmenter un jeu de données textuelles pour le traitement du langage naturel (NLP) en remplaçant les synonymes ou en paraphrasant des extraits. 

En savoir plus sur le traitement du langage naturel

Augmentation des données existantes

Après avoir sélectionné la technique d’augmentation des données la mieux adaptée à l’objectif que vous souhaitez atteindre, vous commencez à appliquer différentes transformations. Les points de données ou les échantillons d’images du jeu de données sont transformés à l’aide de la méthode d’augmentation que vous avez sélectionnée, fournissant ainsi une gamme de nouveaux échantillons augmentés. 

Pendant le processus d’augmentation, vous maintenez les mêmes règles d’étiquetage pour garantir la cohérence des données, en veillant à ce que les données synthétiques incluent les mêmes étiquettes que les données sources.

En général, vous examinez les images synthétiques pour déterminer si la transformation a réussi. Cette étape supplémentaire dirigée par l’homme permet de maintenir une meilleure qualité des données. 

Intégration de formulaires de données

Ensuite, vous combinez les nouvelles données augmentées avec les données d’origine pour produire un jeu de données d’entraînement plus important pour le modèle ML. Lorsque vous entraînez le modèle, vous utilisez ce jeu de données composite contenant les deux types de données.

Il est important de noter que les nouveaux points de données créés par l’augmentation des données synthétiques présentent le même biais que les données d’entrée d’origine. Pour éviter que des biais ne soient transférés dans vos nouvelles données, corrigez tout biais dans les données sources avant de commencer le processus d’augmentation des données.

Quelles sont les techniques d’augmentation des données ?

Les techniques d’augmentation des données varient selon les types de données et les différents contextes métier.

Aide visuelle par ordinateur

L’augmentation des données est une technique centrale dans les tâches de vision par ordinateur. Elle permet de créer des représentations de données diverses et de remédier aux déséquilibres entre les classes dans un jeu de données de formation. 

La première utilisation de l’augmentation en vision par ordinateur consiste à augmenter la position. Cette stratégie recadre, retourne ou fait pivoter une image d’entrée pour créer des images augmentées. Le recadrage permet de redimensionner l’image ou de recadrer une petite partie de l’image d’origine pour en créer une nouvelle. Les transformations de rotation, de retournement et de redimensionnement modifient toutes l’original de manière aléatoire avec une probabilité donnée de fournir de nouvelles images.

Une autre utilisation de l’augmentation en vision par ordinateur est l’augmentation des couleurs. Cette stratégie ajuste les facteurs élémentaires d’une image d’entraînement, tels que sa luminosité, son degré de contraste ou sa saturation. Ces transformations d’image courantes modifient la teinte, l’équilibre entre les zones sombres et lumineuses, ainsi que la séparation entre les zones les plus sombres et les plus claires d’une image pour créer des images augmentées.

En savoir plus sur la vision par ordinateur

Augmentation des données audio

Les fichiers audio, tels que les enregistrements vocaux, constituent également un domaine courant dans lequel vous pouvez utiliser l’augmentation des données. Les transformations audio consistent généralement à injecter du bruit aléatoire ou gaussien dans certaines parties audio, à accélérer le transfert de certaines parties, à modifier la vitesse des parties selon une fréquence fixe ou à modifier la hauteur du son.

Augmentation des données textuelles

L’augmentation de texte est une technique d’augmentation de données vitale pour la NLP et d’autres secteurs du ML liés au texte. Les transformations des données textuelles incluent le brassage de phrases, la modification de la position des mots, le remplacement de mots par des synonymes proches, l’insertion de mots aléatoires et la suppression de mots aléatoires.

Transfert de style neuronal

Le transfert de style neuronal est une forme avancée d’augmentation de données qui déconstruit les images en parties plus petites. Il utilise une série de couches convolutives qui séparent le style et le contexte d’une image, produisant de nombreuses images à partir d’une seule. 

Entraînement contradictoire

Les modifications au niveau des pixels constituent un défi pour un modèle ML. Certains échantillons incluent une couche de bruit imperceptible sur une image pour tester la capacité du modèle à percevoir l’image située en dessous. Cette stratégie est une forme préventive d’augmentation des données axée sur les éventuels accès non autorisés dans le monde réel.

Quel est le rôle de l’IA générative dans l’augmentation des données ?

L’IA générative est essentielle à l’augmentation des données, car elle facilite la production de données synthétiques. Elle permet d’accroître la diversité des données, de rationaliser la création de données réalistes et de préserver la confidentialité des données. 

Réseaux antagonistes génératifs

Les réseaux antagonistes génératifs (GAN) sont un cadre de deux réseaux neuronaux centraux qui fonctionnent en opposition. Le générateur produit des échantillons de données synthétiques, puis le discriminateur fait la distinction entre les données réelles et les échantillons synthétiques.

Au fil du temps, les GAN améliorent continuellement le rendement du générateur en s’efforçant de tromper le discriminateur. Les données qui peuvent tromper le discriminateur sont considérées comme des données synthétiques de haute qualité, fournissant une augmentation des données avec des échantillons très fiables qui imitent étroitement la distribution des données d’origine.

Autoencodeurs variationnels

Les autoencodeurs variationnels (VAE) sont un type de réseau neuronal qui permet d’augmenter la taille de l’échantillon de données de base et de réduire le temps nécessaire à la collecte de données. Les VAE disposent de deux réseaux connectés : un décodeur et un encodeur. L’encodeur prend des exemples d’images et les traduit en une représentation intermédiaire. Le décodeur prend la représentation et recrée des images similaires sur la base de sa compréhension des échantillons initiaux. Les VAE sont utiles dans la mesure où ils peuvent créer des données très similaires à des échantillons de données, ce qui permet d’ajouter de la variété tout en conservant la distribution des données d’origine.

Comment AWS peut-il répondre à vos besoins en matière d’augmentation des données ?

Les services d’IA générative sur Amazon Web Services (AWS) sont un ensemble de technologies que les entreprises de toutes tailles peuvent utiliser pour créer et mettre à l’échelle des applications d’IA générative avec des données personnalisées pour des cas d’utilisation personnalisés. Vous pouvez innover plus rapidement grâce à de nouvelles fonctionnalités, à un choix de système d’IA à usage général (FM) de pointe et à l’infrastructure la plus rentable. Voici deux exemples de services d’IA générative sur AWS.

Amazon Bedrock est un service entièrement géré qui propose un choix de modèles de fondation (FM) très performants issus de grandes sociétés d’IA. Vous pouvez intégrer et déployer en toute sécurité des capacités d’IA génératives pour augmenter les données sans avoir à gérer l’infrastructure.

Amazon Rekognition est un service d’IA entièrement géré qui offre des capacités de vision par ordinateur préentraînées et personnalisables pour extraire des informations et des connaissances de vos images et de vos vidéos. Le développement d’un modèle personnalisé pour analyser des images est une entreprise importante qui nécessite du temps, de l’expertise et des ressources. Des milliers ou des dizaines de milliers d’images étiquetées à la main sont souvent nécessaires pour fournir au modèle suffisamment de données pour prendre des décisions avec précision. 

Avec les étiquettes personnalisées Amazon Rekognition, diverses augmentations de données sont effectuées pour l’apprentissage du modèle, notamment un recadrage aléatoire de l’image, des vibrations des couleurs et des bruits gaussiens aléatoires. Au lieu de milliers d’images, vous n’avez qu’à télécharger un petit ensemble d’images d’entraînement (généralement quelques centaines ou moins) spécifiques à votre cas d’utilisation sur la console conviviale.

Commencez à utiliser l’augmentation des données sur AWS en créant un compte dès aujourd’hui.

Prochaines étapes sur AWS

Créer gratuitement un compte

Obtenez un accès instantané à l'offre gratuite AWS.

S'inscrire 
Commencez à créer sur la console

Démarrez la création dans la console de gestion AWS.

Se connecter