Was ist lineare Regression?
Lineare Regression ist eine Datenanalysetechnik, die den Wert unbekannter Daten mithilfe eines anderen verwandten und bekannten Datenwerts vorhersagt. Es modelliert mathematisch die unbekannte oder abhängige Variable und die bekannte oder unabhängige Variable als lineare Gleichung. Angenommen, Sie haben Daten zu Ihren Ausgaben und Einnahmen für das letzte Jahr. Lineare Regressionstechniken analysieren diese Daten und stellen fest, dass Ihre Ausgaben die Hälfte Ihres Einkommens ausmachen. Anschließend berechnen sie unbekannte zukünftige Ausgaben, indem sie ein zukünftiges bekanntes Einkommen halbieren.
Warum ist lineare Regression wichtig?
Lineare Regressionsmodelle sind relativ einfach und bieten eine leicht zu interpretierende mathematische Formel zur Generierung von Vorhersagen. Lineare Regression ist eine etablierte statistische Technik und lässt sich leicht auf Software und Computer anwenden. Unternehmen nutzen es, um Rohdaten zuverlässig und vorhersehbar in Business Intelligence und umsetzbare Erkenntnisse umzuwandeln. Wissenschaftler in vielen Bereichen, einschließlich Biologie und Verhaltens-, Umwelt- und Sozialwissenschaften, verwenden lineare Regression, um vorläufige Datenanalysen durchzuführen und zukünftige Trends vorherzusagen. Viele Methoden der Datenwissenschaft, wie Machine Learning und künstliche Intelligenz, verwenden lineare Regression, um komplexe Probleme zu lösen.
Wie funktioniert lineare Regression?
Im Kern versucht eine einfache lineare Regressionstechnik, ein Liniendiagramm zwischen zwei Datenvariablen x und y darzustellen. Als unabhängige Variable wird x entlang der horizontalen Achse dargestellt. Unabhängige Variablen werden auch als erklärende Variablen oder Prädiktorvariablen bezeichnet. Die abhängige Variable y wird auf der vertikalen Achse dargestellt. Sie können y-Werte auch als Antwortvariablen oder prognostizierte Variablen bezeichnen.
Schritte bei der linearen Regression
Betrachten Sie für diesen Überblick die einfachste Form der Liniendiagrammgleichung zwischen y und x: y=c*x+m, wobei c und m für alle möglichen Werte von x und y konstant sind. Nehmen wir zum Beispiel an, dass der Eingabedatensatz für (x, y) (1,5), (2,8) und (3,11) war. Um die lineare Regressionsmethode zu identifizieren, führen Sie die folgenden Schritte aus:
- Zeichnen Sie eine gerade Linie und messen Sie die Korrelation zwischen 1 und 5.
- Ändern Sie die Richtung der Geraden für die neuen Werte (2,8) und (3,11) so lange, bis alle Werte passen.
- Identifizieren Sie die lineare Regressionsgleichung als y=3*x+2.
- Extrapolieren Sie oder sagen Sie voraus, dass y 14 ist, wenn x=
Was ist lineare Regression beim Machine Learning?
Beim Machine Learning analysieren Computerprogramme, sogenannte Algorithmen, große Datensätze und arbeiten rückwärts von diesen Daten, um die lineare Regressionsgleichung zu berechnen. Datenwissenschaftler trainieren den Algorithmus zunächst an bekannten oder beschrifteten Datensätzen und verwenden den Algorithmus dann, um unbekannte Werte vorherzusagen. Daten aus dem realen Leben sind komplizierter als das vorherige Beispiel. Aus diesem Grund muss die lineare Regressionsanalyse die Datenwerte mathematisch modifizieren oder transformieren, um die folgenden vier Annahmen zu erfüllen.
Lineare Beziehung
Zwischen den unabhängigen und abhängigen Variablen muss eine lineare Beziehung bestehen. Um diese Beziehung zu ermitteln, erstellen Datenwissenschaftler ein Streudiagramm – eine zufällige Sammlung von x- und y-Werten, – um zu sehen, ob sie entlang einer geraden Linie liegen. Wenn nicht, können Sie nichtlineare Funktionen wie Quadratwurzel oder Log anwenden, um die lineare Beziehung zwischen den beiden Variablen mathematisch zu erstellen.
Verbleibende Unabhängigkeit
Datenwissenschaftler verwenden Residuen, um die Prognosegenauigkeit zu messen. Ein Residuum ist die Differenz zwischen den beobachteten Daten und dem prognostizierten Wert. Residuen dürfen kein identifizierbares Muster zwischen sich haben. Beispielsweise möchten Sie nicht, dass die Residuen mit der Zeit größer werden. Sie können verschiedene mathematische Tests wie den Durbin-Watson-Test verwenden, um die residuale Unabhängigkeit zu bestimmen. Sie können Dummy-Daten verwenden, um jegliche Datenvariationen, wie z. B. saisonale Daten, zu ersetzen.
Normalität
Grafiktechniken wie Q-Q-Plots bestimmen, ob die Residuen normalverteilt sind. Die Residuen sollten entlang einer diagonalen Linie in der Mitte des Diagramms liegen. Wenn die Residuen nicht normalisiert sind, können Sie die Daten auf zufällige Ausreißer oder Werte testen, die nicht typisch sind. Das Problem kann durch Entfernen der Ausreißer oder das Durchführen nichtlinearer Transformationen behoben werden.
Homoskedastizität
Bei der Homoskedastizität wird davon ausgegangen, dass Residuen für jeden Wert von x eine konstante Varianz oder Standardabweichung vom Mittelwert aufweisen. Wenn nicht, sind die Ergebnisse der Analyse möglicherweise nicht korrekt. Wenn diese Annahme nicht erfüllt ist, müssen Sie möglicherweise die abhängige Variable ändern. Da Varianz in großen Datensätzen natürlich auftritt, ist es sinnvoll, den Maßstab der abhängigen Variablen zu ändern. Anstatt beispielsweise die Bevölkerungsgröße zur Vorhersage der Anzahl der Feuerwachen in einer Stadt zu verwenden, könnte die Bevölkerungsgröße verwendet werden, um die Anzahl der Feuerwachen pro Person vorherzusagen.
Was sind die Arten der linearen Regression?
Einige Arten der Regressionsanalyse eignen sich besser für den Umgang mit komplexen Datensätzen als andere. Im Folgenden sind einige Beispiele aufgeführt.
Einfache lineare Regression
Die einfache lineare Regression wird durch die lineare Funktion definiert:
Y= β0*X + β1 + ε
β0 und β1 sind zwei unbekannte Konstanten, die die Regressionssteigung darstellen, wohingegen ε (Epsilon) der Fehlerterm ist.
Sie können die einfache lineare Regression verwenden, um die Beziehung zwischen zwei Variablen wie diesen zu modellieren:
- Niederschlag und Ernteertrag
- Alter und Größe von Kindern
- Temperatur und Ausdehnung des Metalls Quecksilber in einem Thermometer
Multiple lineare Regression
Bei der multiplen linearen Regressionsanalyse enthält der Datensatz eine abhängige Variable und mehrere unabhängige Variablen. Die lineare Regressionslinienfunktion ändert sich, um weitere Faktoren wie folgt einzubeziehen:
Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε
Wenn die Anzahl der Prädiktorvariablen zunimmt, steigen auch die β-Konstanten entsprechend an.
Multiple lineare Regressionsmodelle für mehrere Variablen und ihre Auswirkung auf ein Ergebnis:
- Niederschlag, Temperatur und Düngereinsatz auf den Ernteertrag
- Ernährung und Bewegung bei Herzerkrankungen
- Lohnwachstum und Inflation bei den Zinssätzen für Wohnungsbaudarlehen
Logistische Regression
Datenwissenschaftler verwenden die logistische Regression, um die Wahrscheinlichkeit des Eintretens eines Ereignisses zu messen. Die Vorhersage ist ein Wert zwischen 0 und 1, wobei 0 für ein Ereignis steht, das unwahrscheinlich ist, und 1 für eine maximale Wahrscheinlichkeit, dass es eintritt. Logistische Gleichungen verwenden logarithmische Funktionen, um die Regressionslinie zu berechnen.
Hier sind einige Beispiele:
- Die Wahrscheinlichkeit eines Gewinns oder Verlusts in einem Sportspiel
- Die Wahrscheinlichkeit, einen Test zu bestehen oder nicht zu bestehen
- Die Wahrscheinlichkeit, dass ein Bild eine Frucht oder ein Tier ist
Wie kann AWS Sie bei der Lösung linearer Regressionsprobleme unterstützen?
Bei Amazon SageMaker handelt es sich um einen vollständig verwalteten Service, mit dessen Hilfe Sie hochwertige Machine-Learning-Modelle vorbereiten, erstellen, trainieren und bereitstellen können. Amazon SageMaker Autopilot ist eine generische automatische ML-Lösung für Klassifizierungs- und Regressionsprobleme wie Betrugserkennung, Abwanderungsanalyse und zielgerichtetes Marketing.
Amazon Redshift, ein schnelles, weit verbreitetes Cloud-Data Warehouse, lässt sich nativ in Amazon SageMaker für ML integrieren. Mit Amazon Redshift ML können Sie einfache SQL-Anweisungen verwenden, um ML-Modelle aus Ihren Daten in Amazon Redshift zu erstellen und zu trainieren. Sie können diese Modelle dann verwenden, um alle Arten von Problemen mit linearer Regression zu lösen.
Starten Sie mit Amazon SageMaker JumpStart oder erstellen Sie noch heute ein AWS-Konto.
Lineare Regression mit AWS – nächste Schritte
Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.
Beginnen Sie mit der Entwicklung in der AWS-Managementkonsole.