Cos'è la regressione lineare?

La regressione lineare è una tecnica di analisi dei dati che prevede il valore di dati sconosciuti utilizzando un altro valore di dati correlato e noto. Modella matematicamente la variabile sconosciuta o dipendente e la variabile nota o indipendente come equazione lineare. Ad esempio, supponiamo di disporre di dati relativi alle spese e alle entrate dell'anno scorso. Le tecniche di regressione lineare analizzano questi dati e determinano che le tue spese sono la metà delle tue entrate. Quindi calcolano una spesa futura sconosciuta dimezzando un reddito noto futuro.

Perché è importante la regressione lineare?

I modelli di regressione lineare sono relativamente semplici e forniscono una formula matematica facile da interpretare per generare previsioni. La regressione lineare è una tecnica statistica consolidata e si applica facilmente al software e all'informatica. Le aziende la utilizzano per convertire in modo affidabile e prevedibile i dati non elaborati in business intelligence e informazioni fruibili. Gli scienziati in molti campi, tra cui la biologia e le scienze comportamentali, ambientali e sociali, utilizzano la regressione lineare per condurre analisi preliminari dei dati e prevedere le tendenze future. Molti metodi di data science, come machine learning e intelligenza artificiale, utilizzano la regressione lineare per risolvere problemi complessi.

Come funziona la regressione lineare?

Fondamentalmente, una semplice tecnica di regressione lineare tenta di tracciare un grafico lineare tra due variabili di dati, x e y. Come variabile indipendente, x viene tracciata lungo l'asse orizzontale. Le variabili indipendenti sono anche chiamate variabili esplicative o variabili predittive. La variabile dipendente, y, viene tracciata sull'asse verticale. È inoltre possibile fare riferimento ai valori y come variabili di risposta o variabili previste.

Fasi della regressione lineare

Per questa panoramica, consideriamo la forma più semplice dell'equazione del grafico lineare tra y e x; y=c*x+m, dove c e m sono costanti per tutti i possibili valori di x e y. Quindi, ad esempio, supponiamo che il set di dati di input per (x,y) sia (1,5), (2,8) e (3,11). Per identificare il metodo di regressione lineare, è necessario attenersi alla seguente procedura:

  1. Tracciare una linea retta e misurare la correlazione tra 1 e 5.
  2. Continuare a cambiare la direzione della linea retta per i nuovi valori (2,8) e (3,11) finché tutti i valori non vengano inseriti.
  3. Identificare l'equazione di regressione lineare come y=3*x+2.
  4. Estrapolare o prevedere che y è 14 quando x è

Cos'è la regressione lineare nel machine learning?

Nel machine learning, i programmi per computer chiamati algoritmi analizzano set di dati di grandi dimensioni e lavorano a ritroso da tali dati per calcolare l'equazione di regressione lineare. I data scientist addestrano prima l'algoritmo su set di dati noti o etichettati e quindi utilizzano l'algoritmo per prevedere i valori sconosciuti. I dati reali sono più complicati rispetto all'esempio precedente. Ecco perché l'analisi della regressione lineare deve modificare o trasformare matematicamente i valori dei dati per soddisfare i quattro presupposti seguenti.

Relazione lineare

Deve esistere una relazione lineare tra le variabili indipendenti e dipendenti. Per determinare questa relazione, i data scientist creano un grafico a dispersione, vale a dire, una raccolta casuale di valori x e y, per vedere se cadono lungo una linea retta. In caso contrario, è possibile applicare funzioni non lineari come radice quadrata o logaritmo per creare matematicamente la relazione lineare tra le due variabili.

Indipendenza residua

I data scientist utilizzano i residui per misurare l'accuratezza della previsione. Un residuo è la differenza tra i dati osservati e il valore previsto. I residui non devono presentare uno schema identificabile tra loro. Ad esempio, i residui non devono ingrandirsi con il tempo. È possibile utilizzare diversi test matematici, come il test di Durbin-Watson, per determinare l'indipendenza residuale. È possibile utilizzare i dati fittizi per sostituire qualsiasi variazione dei dati, ad esempio i dati stagionali.

Normalità

Tecniche grafiche come i grafici Q-Q determinano se i residui sono distribuiti normalmente. I residui dovrebbero cadere lungo una linea diagonale al centro del grafico. Se i residui non sono normalizzati, è possibile testare i dati per individuare valori anomali o valori non tipici. La rimozione dei valori anomali o l'esecuzione di trasformazioni non lineari possono risolvere il problema.

Omoschedasticità

L'omoschedasticità presuppone che i residui abbiano una varianza costante o una deviazione standard dalla media per ogni valore di x. In caso contrario, i risultati dell'analisi potrebbero non essere accurati. Se questo presupposto non viene soddisfatto, potrebbe essere necessario modificare la variabile dipendente. Poiché la varianza si verifica naturalmente in set di dati di grandi dimensioni, è opportuno modificare la scala della variabile dipendente. Ad esempio, invece di utilizzare la dimensione della popolazione per prevedere il numero di caserme dei pompieri in una città, si potrebbe utilizzare la dimensione della popolazione per prevedere il numero di caserme dei pompieri per persona.

Quali sono i tipi di regressione lineare?

Alcuni tipi di analisi di regressione sono più adatti per gestire set di dati complessi rispetto ad altri. Di seguito sono riportati alcuni esempi.

Regressione lineare semplice

La regressione lineare semplice è definita dalla funzione lineare:

Y= β0*x + β1 + ε 

β0 e β1 sono due costanti sconosciute che rappresentano la pendenza di regressione, mentre ε (epsilon) è il termine di errore.

È possibile utilizzare una semplice regressione lineare per modellare la relazione tra due variabili, ad esempio:

  • Precipitazione e resa dei raccolti
  • Età e altezza nei bambini
  • Temperatura ed espansione del mercurio metallico in un termometro

Regressione lineare multipla

Nell'analisi della regressione lineare multipla, il set di dati contiene una variabile dipendente e più variabili indipendenti. La funzione della linea di regressione lineare cambia per includere più fattori come segue:

Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε 

Man mano che il numero di variabili predittive aumenta, aumentano di conseguenza le costanti β.

 La regressione lineare multipla modella più variabili e il loro impatto su un risultato:

  • Precipitazioni, temperatura e uso di fertilizzanti sulla resa dei raccolti
  • Dieta ed esercizio fisico sulle malattie cardiache
  • Crescita salariale e inflazione sui tassi dei mutui per la casa

Regressione logistica

I data scientist utilizzano la regressione logistica per misurare la probabilità che si verifichi un evento. La previsione è un valore compreso tra 0 e 1, dove 0 indica un evento che è improbabile che si verifichi e 1 indica la probabilità massima che l'evento si verifichi. Le equazioni logistiche utilizzano funzioni logaritmiche per calcolare la linea di regressione.

Ecco alcuni esempi:

  • La probabilità di una vittoria o di una sconfitta in un incontro sportivo
  • La probabilità di superare o non superare un test 
  • La probabilità che un'immagine sia un frutto o un animale

In che modo AWS può fornire il suo contributo per risolvere i problemi di regressione lineare?

Amazon SageMaker è un servizio completamente gestito che può aiutare a preparare, creare, addestrare e implementare rapidamente modelli di machine learning (ML) di alta qualità. Il pilota automatico Amazon SageMaker è una soluzione di machine learning automatica generica per problemi di classificazione e regressione, come il rilevamento di frodi, l'analisi del tasso di abbandono e il marketing mirato. 

Amazon Redshift, un data warehouse cloud veloce e ampiamente utilizzato, si integra in modo nativo con Amazon SageMaker per ML. Con ML di Amazon Redshift, è possibile utilizzare semplici istruzioni SQL per creare e addestrare modelli di ML dai dati in Amazon Redshift. È quindi possibile utilizzare questi modelli per risolvere tutti i tipi di problemi di regressione lineare.

Inizia a usare Amazon SageMaker JumpStart o crea un account AWS oggi stesso.

Fasi successive della regressione lineare in AWS

Scopri ulteriori risorse correlate al prodotto
Servizi gratuiti di machine learning in AWS 
Registrati per creare un account gratuito

Ottieni accesso istantaneo al piano gratuito di AWS. 

Registrati 
Inizia a lavorare con la console

Inizia subito a sviluppare nella Console di gestione AWS.

Accedi