Qu'est-ce que la régression linéaire ?

La régression linéaire est une technique d'analyse de données qui prédit la valeur de données inconnues en utilisant une autre valeur de données apparentée et connue. Il modélise mathématiquement la variable inconnue ou dépendante et la variable connue ou indépendante sous forme d'équation linéaire. Supposons, par exemple, que vous disposiez de données sur vos dépenses et vos revenus de l'année dernière. Les techniques de régression linéaire analysent ces données et déterminent que vos dépenses représentent la moitié de vos revenus. Ils calculent ensuite une dépense future inconnue en réduisant de moitié un revenu futur connu.

Pourquoi la régression linéaire est-elle importante ?

Les modèles de régression linéaire sont relativement simples et fournissent une formule mathématique facile à interpréter pour générer des prévisions. La régression linéaire est une technique statistique établie qui s'applique facilement aux logiciels et au calcul. Les entreprises l'utilisent pour convertir de manière fiable et prévisible les données brutes en informatique décisionnelle et en informations exploitables. Les scientifiques de nombreux domaines, y compris la biologie et les sciences comportementales, environnementales et sociales, utilisent la régression linéaire pour effectuer une analyse préliminaire des données et prédire les tendances futures. De nombreuses méthodes de science des données, telles que le machine learning et l’intelligence artificielle, utilisent la régression linéaire pour résoudre des problèmes complexes.

Comment fonctionne la régression linéaire ?

Fondamentalement, une technique de régression linéaire simple tente de tracer un graphique linéaire entre deux variables de données, x et y. En tant que variable indépendante, x est tracé le long de l'axe horizontal. Les variables indépendantes sont également appelées variables explicatives ou variables prédictives. La variable dépendante, y, est tracée sur l'axe vertical. Vous pouvez également faire référence aux valeurs y en tant que variables de réponse ou variables prédites.

Étapes de la régression linéaire

Pour cet aperçu, considérez la forme la plus simple de l'équation de graphique linéaire entre y et x ; y=c*x+m, où c et m sont constants pour toutes les valeurs possibles de x et de y. Supposons, par exemple, que le jeu de données d'entrée pour (x, y) soit (1,5), (2,8) et (3,11). Pour identifier la méthode de régression linéaire, vous devez procéder comme suit :

  1. Tracez une ligne droite et mesurez la corrélation entre 1 et 5.
  2. Continuez à changer la direction de la ligne droite pour les nouvelles valeurs (2,8) et (3,11) jusqu'à ce que toutes les valeurs soient ajustées.
  3. Identifiez l'équation de régression linéaire comme suit : y=3*x+2.
  4. Extrapolez ou prévoyez que y est égal à 14 lorsque x est

Qu'est-ce que la régression linéaire en machine learning ?

Dans le machine learning, des programmes informatiques appelés algorithmes analysent de grands jeux de données et travaillent à rebours à partir de ces données pour calculer l'équation de régression linéaire. Les scientifiques des données entraînent d'abord l'algorithme sur des jeux de données connus ou étiquetés, puis l'utilisent pour prédire des valeurs inconnues. Les données réelles sont plus complexes que dans l'exemple précédent. C'est pourquoi l'analyse de régression linéaire doit modifier ou transformer mathématiquement les valeurs des données pour répondre aux quatre hypothèses suivantes.

Relation linéaire

Une relation linéaire doit exister entre les variables indépendantes et dépendantes. Pour déterminer cette relation, les scientifiques des données créent un nuage de points, une collection aléatoire de valeurs x et y, pour voir s'ils se situent le long d'une ligne droite. Si tel n'est pas le cas, vous pouvez appliquer des fonctions non linéaires telles que la racine carrée ou le journal pour créer mathématiquement la relation linéaire entre les deux variables.

Indépendance résiduelle

Les scientifiques des données utilisent des valeurs résiduelles pour mesurer la précision des prévisions. Une valeur résiduelle est la différence entre les données observées et la valeur prédite. Les valeurs résiduelles ne doivent pas présenter de schéma identifiable entre elles. Par exemple, vous ne voulez pas que les valeurs résiduelles augmentent avec le temps. Vous pouvez utiliser différents tests mathématiques, tels que le test de Durbin-Watson, pour déterminer l'indépendance résiduelle. Vous pouvez utiliser des données factices pour remplacer toute variation de données, telle que les données saisonnières.

Normalité

Les techniques graphiques telles que les diagrammes Q-Q déterminent si les valeurs résiduelles sont normalement distribuées. Les valeurs résiduelles doivent se situer le long d'une ligne diagonale au centre du graphique. Si les valeurs résiduelles ne sont pas normalisées, vous pouvez tester les données pour rechercher des valeurs aberrantes aléatoires ou des valeurs qui ne sont pas typiques. La suppression des valeurs aberrantes ou l'exécution de transformations non linéaires peuvent résoudre le problème.

Homoscédasticité

L'homoscédasticité suppose que les valeurs résiduelles ont une variance constante ou un écart type par rapport à la moyenne pour chaque valeur de x. Dans le cas contraire, les résultats de l'analyse risquent de ne pas être exacts. Si cette hypothèse n'est pas respectée, vous devrez peut-être modifier la variable dépendante. Comme la variance se produit naturellement dans les grands jeux de données, il est logique de modifier l'échelle de la variable dépendante. Par exemple, au lieu d'utiliser la taille de la population pour prédire le nombre de casernes de pompiers dans une ville, vous pouvez utiliser la taille de la population pour prédire le nombre de casernes de pompiers par personne.

Quels sont les types de régression linéaire ?

Certains types d'analyse de régression sont plus adaptés que d'autres pour gérer des jeux de données complexes. Voici quelques exemples.

Régression linéaire simple

La régression linéaire simple est définie par la fonction linéaire :

Y= β0*X + β1 + ε 

β0 et β1 sont deux constantes inconnues représentant la pente de régression, tandis que ε (epsilon) est le terme d'erreur.

Vous pouvez utiliser une régression linéaire simple pour modéliser la relation entre deux variables, telles que celles-ci :

  • Précipitations et rendement des cultures
  • Âge et taille des enfants
  • Température et expansion du mercure métallique dans un thermomètre

Régression linéaire multiple

Dans l'analyse de régression linéaire multiple, le jeu de données contient une variable dépendante et plusieurs variables indépendantes. La fonction de la droite de régression linéaire change pour inclure davantage de facteurs comme suit :

Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε 

À mesure que le nombre de variables prédictives augmente, les constantes β augmentent également en conséquence.

 La régression linéaire multiple modélise plusieurs variables et leur impact sur un résultat :

  • Utilisation des précipitations, de la température et des engrais sur le rendement des cultures
  • Influence du régime alimentaire et de l'exercice sur les maladies cardiaques
  • Croissance des salaires et inflation sur les taux des prêts immobiliers

Régression logistique

Les scientifiques des données utilisent la régression logistique pour mesurer la probabilité qu'un événement se produise. La prédiction est une valeur comprise entre 0 et 1, où 0 indique un événement peu probable et 1 indique une probabilité maximale qu'il se produise. Les équations logistiques utilisent des fonctions logarithmiques pour calculer la droite de régression.

Voici quelques exemples :

  • La probabilité d'une victoire ou d'une défaite lors d'une rencontre sportive
  • La probabilité de réussir ou d'échouer à un test 
  • La probabilité qu'une image soit un fruit ou un animal

Comment AWS peut-il vous aider à résoudre les problèmes de régression linéaire ?

Amazon SageMaker est un service entièrement géré qui peut vous aider à préparer, créer, former et déployer rapidement des modèles de machine learning (ML) de haute qualité. Amazon SageMaker Autopilot est une solution générique automatique de ML pour les problèmes de classification et de régression, tels que la détection des fraudes, l'analyse des pertes et le marketing ciblé. 

Amazon Redshift, un entrepôt des données cloud rapide et largement utilisé, s'intègre de manière native à Amazon SageMaker for ML. Avec Amazon Redshift ML, vous pouvez utiliser de simples instructions SQL pour créer et entraîner des modèles de ML à partir de vos données dans Amazon Redshift. Vous pouvez ensuite utiliser ces modèles pour résoudre tous les types de problèmes de régression linéaire.

Commencez à utiliser Amazon SageMaker JumpStart ou créez un compte AWS dès aujourd'hui.

La régression linéaire dans AWS : prochaines étapes

Consultez d’autres ressources concernant le produit
Services d’apprentissage automatique gratuits dans AWS 
Créer un compte gratuit

Obtenez un accès instantané à l'offre gratuite AWS. 

S'inscrire 
Commencer à créer dans la console

Commencez à créer dans la console de gestion AWS.

Se connecter