Quelle est la différence entre le machine learning supervisé et non supervisé ?
Le machine learning (ML) supervisé et non supervisé sont deux catégories d’algorithmes de ML. Les algorithmes de ML traitent de grandes quantités de données historiques pour identifier des modèles de données par inférence.
Les algorithmes d'apprentissage supervisé s'entraînent sur la base d'échantillons de données qui spécifient à la fois les entrées et les sorties de l'algorithme. Par exemple, les données peuvent être des images de nombres manuscrits annotés pour indiquer les nombres qu'ils représentent. Avec suffisamment de données étiquetées, le système d'apprentissage supervisé finirait par reconnaître les groupes de pixels et de formes associés à chaque chiffre manuscrit.
Les algorithmes d'apprentissage non supervisé s'entraînent sur des données non étiquetées. Ils parcourent les nouvelles données, en essayant d'établir des liens significatifs entre les entrées et les sorties prédéterminées. Par exemple, des algorithmes d'apprentissage non supervisé pourraient regrouper des articles de presse provenant de différents sites d'information dans des catégories communes telles que les sports et la criminalité.
Techniques : apprentissage supervisé vs apprentissage non supervisé
En machine learning, vous apprenez à un ordinateur à faire des prédictions ou des déductions. Tout d'abord, vous utilisez un algorithme et des exemples de données pour entraîner un modèle. Ensuite, vous intégrez votre modèle à votre application pour générer des inférences en temps réel et à grande échelle. L'apprentissage supervisé et l'apprentissage non supervisé sont deux catégories distinctes d'algorithmes.
Apprentissage supervisé
Dans le cadre de l'apprentissage supervisé, vous entraînez le modèle à l'aide d'un jeu de données d'entrée et d'un jeu correspondant de données de sortie étiquetées appariées. L'étiquetage est généralement effectué manuellement. Viennent ensuite certains types de techniques de machine learning supervisé.
Régression logistique
La régression logistique prédit une sortie catégorique sur la base d'une ou de plusieurs entrées. La classification binaire se produit lorsque la sortie entre dans l'une des deux catégories suivantes, par exemple oui ou non et réussite ou échec. La classification par classes multiples se produit lorsque le résultat entre dans plus de deux catégories, telles que chat, chien ou lapin. Un exemple de régression logistique consiste à prédire si un étudiant réussira ou échouera à une unité en fonction de son nombre de connexions au didacticiel.
En savoir plus sur la régression logistique »
Régression linéaire
La régression linéaire fait référence aux modèles d'apprentissage supervisé qui, sur la base d'une ou de plusieurs entrées, prédisent une valeur à partir d'une échelle continue. La prédiction du prix d'un logement est un exemple de régression linéaire. Vous pouvez prévoir le prix d'une maison en fonction de son emplacement, de son âge et du nombre de pièces, après avoir entraîné un modèle sur un jeu de données historiques de formation à la vente avec ces variables.
En savoir plus sur la régression linéaire »
Arbres de décision
La technique de machine learning supervisé par arbre de décision prend certaines entrées données et applique une structure si-alors pour prédire un résultat. La prédiction de la perte de clientèle est un exemple de problème lié à l'arbre de décision. Par exemple, si un client ne consulte pas une application après s'être inscrit, le modèle peut prédire le taux de désabonnement. Ou si le client accède à l'application sur plusieurs appareils et que la durée moyenne de la session est supérieure à un seuil donné, le modèle peut prédire la rétention.
Réseau neuronal
Une solution de réseau neuronal est une technique d'apprentissage supervisé plus complexe. Pour produire un résultat donné, il utilise certaines entrées et exécute une ou plusieurs couches de transformation mathématique en ajustant les pondérations des données. Un exemple de technique de réseau neuronal consiste à prédire un chiffre à partir d'une image manuscrite.
En savoir plus sur les réseaux neuronaux »
Apprentissage non supervisé
Le machine learning non supervisé consiste à fournir à l'algorithme des données d'entrée sans aucune donnée de sortie étiquetée. Ensuite, l'algorithme identifie lui-même les modèles et les relations au sein des données et entre elles. Viennent ensuite certains types de techniques d'apprentissage non supervisé.
Clustering
La technique d'apprentissage non supervisé par clustering regroupe certaines entrées de données afin qu'elles puissent être classées dans leur ensemble. Il existe différents types d'algorithmes de clustering en fonction des données d'entrée. Un exemple de clustering consiste à identifier différents types de trafic réseau afin de prévoir les incidents de sécurité potentiels.
Apprentissage des règles d'association
Les techniques d'apprentissage des règles d'association permettent de découvrir les relations basées sur des règles entre les entrées d'un jeu de données. Par exemple, l'algorithme Apriori effectue une analyse du panier d'achat afin d'identifier des règles telles que l'achat de café et de lait en même temps.
Densité de probabilité
Les techniques de densité de probabilité utilisées dans l'apprentissage non supervisé prédisent la probabilité ou la possibilité que la valeur d'une sortie se situe dans la fourchette de ce qui est considéré comme normal pour une entrée. Par exemple, une jauge de température dans une salle de serveurs enregistre généralement dans une certaine plage de degrés. Cependant, si elle mesure soudainement une valeur peu élevée en fonction de la distribution de probabilité, cela peut indiquer un dysfonctionnement de l'équipement.
Réduction de la dimensionnalité
La réduction de la dimensionnalité est une technique d'apprentissage non supervisée qui réduit le nombre de caractéristiques dans un jeu de données. Elle est souvent utilisée afin de prétraiter les données pour d'autres fonctions de machine learning et réduire la complexité et les frais généraux. Par exemple, il peut estomper ou recadrer les caractéristiques de l'arrière-plan dans une application de reconnaissance d'images.
Utilisation : apprentissage supervisé vs apprentissage non supervisé
Vous pouvez utiliser des techniques d'apprentissage supervisé pour résoudre des problèmes dont les résultats sont connus et pour lesquels des données étiquetées sont disponibles. Les exemples incluent la classification des e-mails indésirables, la reconnaissance d'images et les prévisions boursières basées sur des données historiques connues.
Vous pouvez utiliser l'apprentissage non supervisé pour des scénarios dans lesquels les données ne sont pas étiquetées et l'objectif est de découvrir des motifs, de regrouper des instances similaires ou de détecter des anomalies. Vous pouvez également l'utiliser pour des tâches exploratoires où les données étiquetées sont absentes. Les exemples incluent l'organisation de grandes archives de données, la création de systèmes de recommandation et le regroupement des clients en fonction de leurs comportements d'achat.
Est-il possible d'utiliser à la fois l'apprentissage supervisé et l'apprentissage non supervisé ?
L'apprentissage semi-supervisé consiste à appliquer des techniques d'apprentissage supervisé et non supervisé à un problème courant. Il s'agit en soi d'une autre catégorie de machine learning.
Vous pouvez appliquer l'apprentissage semi-supervisé lorsqu'il est difficile d'obtenir des étiquettes pour un jeu de données. Vous disposez peut-être d'un plus petit volume de données étiquetées, mais d'une quantité importante de données non étiquetées. Par rapport à l'utilisation du jeu de données étiqueté seul, vous obtiendrez une précision et une efficacité accrues si vous combinez des techniques d'apprentissage supervisées et non supervisées.
Voici quelques exemples d'applications d'apprentissage semi-supervisé.
Détection des fraudes
Au sein d'un vaste jeu de données transactionnelles, il existe un sous-ensemble de données étiquetées pour lesquelles des experts ont confirmé des transactions frauduleuses. Pour un résultat plus précis, la solution de machine learning s'entraînerait d'abord sur les données non étiquetées, puis sur les données étiquetées.
Analyse des sentiments
Lorsque l'on considère l'étendue des interactions textuelles avec les clients d'une organisation, il peut ne pas être rentable de catégoriser ou d'étiqueter les sentiments sur tous les canaux. Une organisation peut d'abord entraîner un modèle sur la plus grande partie non étiquetée des données, puis sur un échantillon étiqueté. Cela permettrait à l'organisation d'avoir une plus grande confiance dans le sentiment des clients au sein de l'entreprise.
Classification de documents
Lorsque vous appliquez des catégories à une grande base de documents, il se peut qu'il y ait trop de documents à étiqueter physiquement. Par exemple, il peut s'agir d'innombrables rapports, transcriptions ou spécifications. Pour commencer, un entraînement sur les données non étiquetées permet d'identifier des documents similaires à étiqueter.
Résumé des différences : apprentissage supervisé vs apprentissage non supervisé
Apprentissage supervisé |
L'apprentissage non supervisé |
|
De quoi s'agit-il ? |
Vous entraînez le modèle à l'aide d'un jeu de données d'entrée et d'un jeu correspondant de données de sortie étiquetées appariées. |
Vous entraînez le modèle à découvrir des motifs cachés dans des données non étiquetées. |
Techniques |
Régression logistique, régression linéaire, arbre de décision et réseau neuronal. |
Clustering, apprentissage des règles d'association, densité de probabilité et réduction de la dimensionnalité. |
Objectif |
Prédire une sortie sur la base d'entrées connues. |
Identifier les informations utiles sur les relations entre les points de données d'entrée. Cela peut ensuite être appliqué à de nouvelles entrées pour obtenir des informations similaires. |
Approche |
Minimisez l'erreur entre les sorties prédites et les vraies étiquettes. |
Trouvez des modèles, des similitudes ou des anomalies dans les données. |
Que peut apporter AWS en matière d'apprentissage supervisé et non supervisé ?
Amazon Web Services (AWS) propose un large éventail d'offres pour vous aider dans le domaine du machine learning (ML) supervisé, non supervisé et semi-supervisé. Vous pouvez créer, exécuter et intégrer des solutions de toutes tailles, de toutes complexités ou de tous types d'utilisation.
Amazon SageMaker est une plateforme complète qui vous permet de créer vos solutions de ML à partir de zéro. SageMaker dispose d'une suite complète de modèles d'apprentissage non supervisé, de fonctionnalités de stockage et de calcul, ainsi que d'un environnement entièrement géré.
Par exemple, voici les fonctionnalités de SageMaker que vous pouvez utiliser dans votre travail :
- Utiliser Amazon SageMaker Autopilot pour explorer automatiquement différentes solutions et trouver le meilleur modèle pour votre jeu de données
- Utiliser Amazon SageMaker Data Wrangler pour sélectionner des données, comprendre des informations sur les données et transformer les données afin de les préparer au machine learning
- Utiliser Amazon SageMaker Experiments pour analyser et comparer les itérations d'entraînement au machine learning afin de choisir le modèle le plus performant
- Utiliser Amazon SageMaker Clarify pour détecter et mesurer les biais potentiels De cette façon, les développeurs de machine learning peuvent corriger les biais potentiels et expliquer les prévisions du modèle.
Commencez à utiliser le machine learning supervisé et non supervisé sur AWS en créant un compte dès aujourd'hui.
Prochaines étapes avec AWS
Découvrez comment démarrer avec le machine learning supervisé sur AWS
Découvrez comment démarrer avec le machine learning non supervisé sur AWS