Quelle est la différence entre la régression linéaire et la régression logistique ?


Quelle est la différence entre la régression linéaire et la régression logistique ?

La régression linéaire et la régression logistique sont des techniques de machine learning qui permettent de faire des prédictions en analysant des données historiques. Par exemple, en examinant les tendances d'achat passées des clients, l'analyse de régression estime les ventes futures, afin que vous puissiez effectuer des achats de stock plus éclairés. Les techniques de régression linéaire modélisent mathématiquement le facteur inconnu sur plusieurs facteurs connus afin d'estimer la valeur inconnue exacte. De même, la régression logistique utilise les mathématiques pour déterminer les relations entre deux facteurs de données. Elle utilise ensuite cette relation pour prédire la valeur de l'un de ces facteurs en fonction de l'autre. La prédiction a généralement un nombre fini de résultats, comme oui ou non.

En savoir plus sur la régression linéaire »

En savoir plus sur la régression logistique »

Faire des prédictions : régression linéaire vs. régression logistique

La régression linéaire et la régression logistique utilisent la modélisation mathématique pour prédire la valeur d'une variable de sortie à partir d'une ou de plusieurs variables d'entrée. Les variables de sortie sont des variables dépendantes et les variables d'entrée sont des variables indépendantes.

Régression linéaire

Chaque variable indépendante a une relation directe avec la variable dépendante et n'a aucune relation avec les autres variables indépendantes. Cette relation est connue sous le nom de relation linéaire. La variable dépendante est généralement une valeur issue d'une plage de valeurs continues.

Voici la formule, ou fonction linéaire, permettant de créer un modèle de régression linéaire :

y = β0 + β1X1 + β2X2 +… βnXn + ε

Voici ce que signifie chaque variable :

  • y est la variable dépendante prédite
  • β0 est l'intersection y lorsque toutes les variables d'entrée indépendantes sont égales à 0
  • β1X1 est le coefficient de régression (β1) de la première variable indépendante (X1), la valeur d'impact de la première variable indépendante sur la variable dépendante
  • βnXn est le coefficient de régression (βn) de la dernière variable indépendante (Xn), lorsqu'il existe plusieurs valeurs d'entrée
  • ε est l'erreur du modèle

Un exemple de régression linéaire consiste à prédire le prix d'un logement (variable dépendante) en fonction du nombre de pièces, du quartier et de l'âge (variables indépendantes).

Régression logistique

La valeur de la variable dépendante provient d'une liste de catégories finies utilisant la classification binaire. C'est ce que l'on appelle des variables catégorielles. Le résultat du lancer d'un dé à six faces en est un exemple. Cette relation est connue sous le nom de relation logistique.

La formule de régression logistique applique une transformation logit, ou le logarithme naturel des probabilités, à la probabilité de succès ou d'échec d'une variable catégorielle particulière.

y = e^(β0 + β1X1 + β2X2 +… βnXn + ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))

Voici ce que signifie chaque variable :

  • y donne la probabilité de succès de la variable catégorielle y
  • e (x) est le nombre d'Euler, l'inverse de la fonction logarithmique naturelle ou de la fonction sigmoïde, ln (x)
  • β0, β1X1...βnXn ont la même signification que la régression linéaire dans la section précédente

Un exemple de régression logistique consiste à prédire la probabilité que le prix d'une maison soit supérieur à 500 000 USD (variable dépendante) en fonction du nombre de pièces, du quartier et de l'âge (variables indépendantes).

Quelles sont les similitudes entre la régression linéaire et la régression logistique ?

La régression linéaire et la régression logistique présentent certains points communs et ont des espaces d'application similaires et étendus.

Analyse statistique

La régression logistique et la régression linéaire sont deux formes d'analyse statistique ou de données et relèvent du domaine de la science des données. Les deux utilisent la modélisation mathématique pour relier un ensemble de variables indépendantes ou connues à des variables dépendantes. Vous pouvez représenter à la fois la régression logistique et la régression linéaire sous forme d'équations mathématiques. Vous pouvez également représenter le modèle sur un graphique.

Techniques de machine learning

Les modèles de régression linéaire et de régression logistique sont utilisés dans le machine learning supervisé.

Le machine learning supervisé consiste à entraîner un modèle en saisissant des jeux de données étiquetés. Les variables dépendantes et indépendantes sont connues et recueillies par des chercheurs humains. En saisissant des données historiques connues, l'équation mathématique fait l'objet d'une rétro-ingénierie. À terme, les prédictions peuvent se révéler précises pour calculer des variables dépendantes inconnues à partir de variables indépendantes connues.

L'apprentissage supervisé est différent de l'apprentissage non supervisé, dans lequel les données ne sont pas étiquetées.

En savoir plus sur le machine learning »

Difficulté d'entraînement

La régression logistique et la régression linéaire nécessitent toutes deux une quantité importante de données étiquetées pour que les modèles puissent établir des prévisions précises. Cela peut être une tâche ardue pour les humains. Par exemple, si vous souhaitez indiquer si une image contient une voiture, toutes les images doivent comporter des balises contenant des variables telles que la taille des voitures, les angles de prise de vue et les obstacles. 

Précision des prévisions limitée

Un modèle statistique qui ajuste les données d'entrée aux données de sortie n'implique pas nécessairement une relation causale entre la variable dépendante et la variable indépendante. Pour la régression logistique comme pour la régression linéaire, la corrélation n'est pas un lien de causalité.

Pour reprendre l'exemple de la tarification immobilière de la section précédente, supposons que le nom du propriétaire rejoigne la liste des variables indépendantes. Ensuite, le nom de John Doe est associé à des prix de vente plus bas. Alors que la régression linéaire et la régression logistique prédisent toujours des prix immobiliers plus bas si le nom du propriétaire est John Doe, la logique veut que cette relation avec les données d'entrée soit incorrecte.

Principales différences : régression linéaire vs. régression logistique

Les approches mathématiques de la régression logistique et de la régression linéaire sont très différentes.

Valeur de sortie

Le résultat d'une régression linéaire est une échelle de valeurs continues. Par exemple, cela inclut les chiffres, les kilomètres, le prix et le poids.

En revanche, la valeur de sortie du modèle de régression logistique est la probabilité qu'un événement catégorique fixe se produise. Par exemple, 0,76 peut signifier 76 % de chances de porter une chemise bleue, et 0,22 peut signifier 22 % de chances de voter oui.

Relation variable

Dans l'analyse de régression, une ligne de régression est la forme de la courbe graphique représentant la relation entre chaque variable indépendante et la variable dépendante.

Dans la régression linéaire, la ligne de régression est droite. Toute modification apportée à une variable indépendante a un effet direct sur la variable dépendante.

Dans la régression logistique, la ligne de régression est une courbe en forme de S, également appelée courbe sigmoïde.

Type de distribution mathématique

La régression linéaire suit une distribution normale ou gaussienne de la variable dépendante. Une distribution normale est représentée par une ligne continue sur un graphique.

Une régression logistique suit une distribution binomiale. La distribution binomiale est généralement représentée sous forme de graphique à barres.

Quand utiliser la régression logistique ou la régression linéaire

Vous pouvez utiliser la régression linéaire lorsque vous souhaitez prévoir une variable dépendante continue à partir d'une échelle de valeurs. Utilisez la régression logistique lorsque vous attendez un résultat binaire (par exemple, oui ou non).

Voici des exemples de régression linéaire : 

  • Prédire la taille d'un adulte en fonction de la taille de la mère et du père
  • Prévision du volume des ventes de citrouilles en fonction du prix, de la période de l'année et de l'emplacement du magasin
  • Prédire le prix d'un billet d'avion en fonction de l'origine, de la destination, de la période de l'année et de la compagnie aérienne
  • Prédire le nombre de likes sur les réseaux sociaux en fonction de l'auteur de l'article, de son nombre de followers organiques, du contenu de l'article et de l'heure à laquelle il a été posté

Voici des exemples de régression logistique :

  • Prédire si une personne sera atteinte d'une maladie cardiaque en fonction de son IMC, de son tabagisme et de ses prédispositions génétiques
  • Prédire quels vêtements vendus au détail seront les plus populaires en fonction de la couleur, de la taille, du type et du prix
  • Prédire si un employé quittera son poste au cours de l'année en fonction de son taux de rémunération, du nombre de jours passés au bureau, du nombre de réunions, du nombre de courriels envoyés, de l'équipe et de la durée du mandat
  • Prédire quels membres de l'équipe commerciale auront plus d'un million de dollars de contrats par an en fonction des ventes, de la durée du mandat et du taux de commission de l'année précédente

Résumé des différences : régression linéaire vs. régression logistique

 

Régression linéaire

Régression logistique

De quoi s'agit-il ?

Méthode statistique permettant de prédire une valeur de sortie à partir d'un ensemble de valeurs d'entrée.

Méthode statistique permettant de prédire la probabilité qu'une valeur de sortie appartienne à une certaine catégorie à partir d'un ensemble de variables catégorielles.

Relation

Relation linéaire, représentée par une ligne droite.

Relation logistique ou relation sigmoïde, représentée par une courbe en forme de S.

Équation

Linéaire.

Logarithmique.

Type d'apprentissage supervisé

Régression.

Classification.

Type de distribution

Normale/Gaussienne.

Binomiale.

Idéal pour

Tâches nécessitant une variable dépendante continue prédite à partir d'une échelle de valeurs.

Tâches nécessitant une probabilité prédite qu'une variable dépendante d'une catégorie se produise à partir d'un ensemble fixe de catégories.

Comment exécuter une analyse de régression linéaire et de régression logistique sur AWS ?

Vous pouvez exécuter une analyse de régression linéaire et logistique sur Amazon Web Services (AWS) à l'aide d'Amazon SageMaker.

SageMaker est un service de machine learning entièrement géré avec des algorithmes de régression intégrés pour la régression linéaire et la régression logistique, parmi plusieurs packages de logiciels statistiques. Vous pouvez implémenter une régression linéaire avec autant de valeurs d'entrée que nécessaire, ou résoudre des problèmes de régression à l'aide de modèles de probabilité logistiques.

Par exemple, voici les avantages que vous pouvez tirer de l'utilisation de SageMaker :

  • Préparer, créer, entraîner et déployer rapidement des modèles de régression
  • Éliminer le gros du travail de chaque étape du processus de régression linéaire et logistique et développer des modèles de régression de haute qualité
  • Accéder à tous les composants nécessaires à l'analyse de régression dans un seul ensemble d'outils afin de mettre les modèles en production plus rapidement, plus facilement et à moindre coût

Commencez à utiliser l'analyse de régression sur AWS en créant un compte dès aujourd'hui.