Was ist der Unterschied zwischen überwachtem und unüberwachtem Lernen?


Was ist der Unterschied zwischen überwachtem und unüberwachtem Machine Learning?

Überwachtes und unüberwachtes Machine Learning (ML) sind zwei Kategorien von ML-Algorithmen. ML-Algorithmen verarbeiten große Mengen historischer Daten, um Datenmuster durch Inferenz zu identifizieren. 

Algorithmen für überwachtes Lernen werden anhand von Beispieldaten trainiert, die sowohl die Eingabe als auch die Ausgabe des Algorithmus spezifizieren. Bei den Daten könnte es sich zum Beispiel um Bilder von handgeschriebenen Zahlen handeln, die mit Anmerkungen versehen sind, um anzuzeigen, welche Zahlen sie darstellen. Bei ausreichend gekennzeichneten Daten würde das überwachte Lernsystem schließlich die mit jeder handgeschriebenen Zahl verbundenen Pixelgruppen und Formen erkennen. 

Im Gegensatz dazu trainieren Algorithmen des unüberwachten Lernens auf unmarkierten Daten. Sie durchforsten neue Daten und stellen sinnvolle Verbindungen zwischen der unbekannten Eingabe und vorgegebenen Ausgaben her. So könnten beispielsweise Algorithmen für unüberwachtes Lernen Nachrichtenartikel von verschiedenen Nachrichtenseiten in gemeinsame Kategorien wie Sport und Kriminalität einteilen.

Techniken: Überwachtes vs. unüberwachtes Lernen

Beim Machine Learning bringt man einem Computer bei, Vorhersagen oder Schlussfolgerungen zu treffen. Zunächst verwenden Sie einen Algorithmus und Beispieldaten, um ein Modell zu trainieren. Anschließend integrieren Sie Ihr Modell in Ihre Anwendung, um Rückschlüsse in Echtzeit und in großem Maßstab zu generieren. Überwachtes und unüberwachtes Lernen sind zwei unterschiedliche Kategorien von Algorithmen.

Supervised Learning

Beim überwachten Lernen trainieren Sie das Modell mit einem Satz von Eingabedaten und einem entsprechenden Satz von gepaarten, markierten Ausgabedaten. Die Beschriftung erfolgt in der Regel manuell. Es folgen einige Arten von überwachten Machine-Learning-Techniken.

Logistische Regression

Die logistische Regression sagt eine kategoriale Ausgabe auf der Grundlage einer oder mehrerer Eingaben voraus. Eine binäre Klassifikation liegt vor, wenn die Ausgabe in eine von zwei Kategorien passt, z. B. ja oder nein und bestanden oder nicht bestanden. Eine Klassifikation nach mehreren Klassen liegt vor, wenn die Ausgabe in mehr als zwei Kategorien passt, z. B. Katze, Hund oder Kaninchen.  Ein Beispiel für eine logistische Regression ist die Vorhersage, ob ein Student eine Einheit bestehen oder nicht bestehen wird, basierend auf der Anzahl seiner Anmeldungen bei der Kurs-Software.

Weitere Informationen zur logistischen Regression »

Lineare Regression

Lineare Regression bezieht sich auf überwachte Lernmodelle, die auf der Grundlage einer oder mehrerer Eingaben einen Wert auf einer kontinuierlichen Skala vorhersagen. Ein Beispiel für lineare Regression ist die Vorhersage eines Immobilienpreises. Sie könnten den Preis eines Hauses auf der Grundlage seiner Lage, seines Alters und der Anzahl der Zimmer vorhersagen, nachdem Sie ein Modell auf einer Reihe von historischen Verkaufsdaten mit diesen Variablen trainiert haben.

Weitere Informationen zur linearen Regression »

Entscheidungsbaum

Die Technik des überwachten Machine Learning mit Entscheidungsbäumen nimmt einige gegebene Eingaben und wendet eine Wenn-dann-Struktur an, um ein Ergebnis vorherzusagen. Ein Beispiel für ein Entscheidungsbaumproblem ist die Vorhersage der Kundenabwanderung. Wenn zum Beispiel ein Kunde eine Anwendung nach der Anmeldung nicht mehr besucht, kann das Modell eine Abwanderung vorhersagen. Oder wenn der Kunde auf die Anwendung mit mehreren Geräten zugreift und die durchschnittliche Sitzungsdauer über einem bestimmten Schwellenwert liegt, kann das Modell die Kundenbindung vorhersagen.

Neuronales Netzwerk

Eine neuronale Netzwerklösung ist eine komplexere Technik des überwachten Lernens. Um ein bestimmtes Ergebnis zu erzielen, nimmt es einige vorgegebene Eingaben auf und führt eine oder mehrere Schichten mathematischer Transformationen durch, die auf einer Anpassung der Datengewichtung basieren. Ein Beispiel für eine neuronale Netztechnik ist die Vorhersage einer Ziffer aus einem handgeschriebenen Bild.

Weitere Informationen über neuronale Netzwerke »

Unüberwachtes Lernen

Unüberwachtes Machine Learning bedeutet, dass Sie dem Algorithmus Eingabedaten ohne markierte Ausgabedaten geben. Dann identifiziert der Algorithmus selbstständig Muster und Beziehungen in und zwischen den Daten. Es folgen einige Arten von unüberwachten Lerntechniken.

Clustering

Die Clustering-Technik des unüberwachten Lernens fasst bestimmte Dateneingaben zusammen, so dass sie als Ganzes kategorisiert werden können. Abhängig von den Eingabedaten gibt es verschiedene Arten von Clustering-Algorithmen. Ein Beispiel für Clustering ist die Identifizierung verschiedener Arten von Netzwerkverkehr, um potenzielle Sicherheitsvorfälle vorherzusagen.

Lernen von Assoziationsregeln

Assoziationsregel-Lernverfahren decken regelbasierte Beziehungen zwischen Eingaben in einem Datensatz auf. Der Apriori-Algorithmus führt zum Beispiel eine Warenkorbanalyse durch, um Regeln wie den häufigen gemeinsamen Kauf von Kaffee und Milch zu erkennen.

Wahrscheinlichkeitsdichte

Wahrscheinlichkeitsdichteverfahren beim unüberwachten Lernen sagen die Wahrscheinlichkeit oder Möglichkeit voraus, dass ein Ausgabewert innerhalb des Bereichs liegt, der für eine Eingabe als normal angesehen wird. Ein Temperaturmessgerät in einem Serverraum zum Beispiel zeichnet in der Regel einen bestimmten Temperaturbereich auf. Wird jedoch plötzlich ein niedriger Wert gemessen, der auf der Wahrscheinlichkeitsverteilung beruht, kann dies auf eine Fehlfunktion des Geräts hinweisen. 

Dimensionalitätsreduktion

Die Dimensionalitätsreduktion ist eine unüberwachte Lerntechnik, die die Anzahl der Merkmale in einem Datensatz reduziert. Sie wird häufig verwendet, um Daten für andere Funktionen des Machine Learnings vorzuverarbeiten und die Komplexität und den Overhead zu reduzieren. So können beispielsweise in einer Bilderkennungsanwendung Hintergrundmerkmale verwischt oder abgeschnitten werden.

Wann zu verwenden: Überwachtes vs. unüberwachtes Lernen

Sie können Techniken des überwachten Lernens verwenden, um Probleme mit bekannten Ergebnissen zu lösen, für die markierte Daten verfügbar sind. Beispiele sind die Klassifizierung von E-Mail-Spam, Bilderkennung und Aktienkursvorhersagen auf der Grundlage bekannter historischer Daten.

Sie können unüberwachtes Lernen für Szenarien verwenden, in denen die Daten nicht beschriftet sind und das Ziel darin besteht, Muster zu entdecken, ähnliche Instances zu gruppieren oder Anomalien zu erkennen. Sie können es auch für explorative Aufgaben verwenden, wenn keine beschrifteten Daten vorliegen. Beispiele hierfür sind die Organisation großer Datenarchive, der Aufbau von Empfehlungssystemen und die Gruppierung von Kunden auf der Grundlage ihres Kaufverhaltens.

Können Sie überwachtes und unüberwachtes Lernen zusammen verwenden?

Teilüberwachtes Lernen bedeutet, dass Sie sowohl überwachte als auch unüberwachte Lerntechniken auf ein gemeinsames Problem anwenden. Es handelt sich um eine weitere Kategorie des Machine Learning an sich.

Sie können teilüberwachtes Lernen anwenden, wenn es schwierig ist, Beschriftungen für einen Datensatz zu erhalten. Möglicherweise haben Sie ein kleineres Volumen an gekennzeichneten Daten, aber eine große Menge an nicht gekennzeichneten Daten. Im Vergleich zur alleinigen Verwendung des markierten Datensatzes erzielen Sie eine höhere Genauigkeit und Effizienz, wenn Sie überwachte und unüberwachte Lerntechniken kombinieren.

Hier sind einige Beispiele für Anwendungen des teilüberwachten Lernens.

Identifizierung von Betrug

Innerhalb eines großen Satzes von Transaktionsdaten gibt es eine Teilmenge von gekennzeichneten Daten, bei denen Experten betrügerische Transaktionen bestätigt haben. Um ein genaueres Ergebnis zu erzielen, würde die Machine-Learning-Lösung zunächst mit den unmarkierten Daten und dann mit den markierten Daten trainieren.

Stimmungsanalyse

Wenn man den Umfang der textbasierten Kundeninteraktionen eines Unternehmens betrachtet, ist es möglicherweise nicht kosteneffizient, die Stimmung über alle Kanäle hinweg zu kategorisieren oder zu kennzeichnen. Ein Unternehmen könnte ein Modell zunächst auf dem größeren, nicht beschrifteten Teil der Daten und dann auf einer beschrifteten Stichprobe trainieren. Dies würde dem Unternehmen ein höheres Maß an Vertrauen in die Stimmung der Kunden im gesamten Unternehmen geben.

Klassifizierung der Dokumente

Bei der Anwendung von Kategorien auf eine große Dokumentenbasis kann es vorkommen, dass es zu viele Dokumente gibt, um sie physisch zu beschriften. Dabei kann es sich zum Beispiel um unzählige Berichte, Abschriften oder Spezifikationen handeln. Das Training auf den unbeschrifteten Daten hilft, ähnliche Dokumente für die Beschriftung zu identifizieren. 

Zusammenfassung der Unterschiede: Überwachtes vs. unüberwachtes Lernen

 

Supervised Learning

Unüberwachtes Lernen

Wie lautet es?

Sie trainieren das Modell mit einem Satz von Eingabedaten und einem entsprechenden Satz von gepaarten, beschrifteten Ausgabedaten.

Sie trainieren das Modell, um versteckte Muster in unbeschrifteten Daten zu entdecken.

Techniken

Logistische Regression, lineare Regression, Entscheidungsbaum und neuronales Netzwerk.

Clustering, Lernen von Assoziationsregeln, Wahrscheinlichkeitsdichte und Dimensionsreduktion.

Ziel

Vorhersage einer Ausgabe auf der Grundlage bekannter Eingaben.

Identifizierung von wertvollen Beziehungsinformationen zwischen Eingabedatenpunkten. Dies kann dann auf neue Eingaben angewandt werden, um ähnliche Erkenntnisse zu gewinnen.

Vorgehensweise

Minimierung von Fehlern zwischen den vorhergesagten Ausgaben und den wahren Bezeichnungen.

Finden von Mustern, Ähnlichkeiten oder Anomalien in den Daten.

Wie kann AWS beim überwachten und unüberwachten Lernen helfen?

Amazon Web Services (AWS) bietet eine breite Palette von Angeboten, die Sie beim überwachten, unüberwachten und halbüberwachten Machine Learning (ML) unterstützen. Sie können Lösungen jeder Größe, Komplexität und Anwendungsfall erstellen, ausführen und integrieren.

Amazon SageMaker ist eine komplette Plattform, um Ihre ML-Lösungen von Grund auf aufzubauen. SageMaker verfügt über eine vollständige Suite vorgefertigter überwachter und unüberwachter Lernmodelle, Speicher- und Rechenkapazitäten sowie eine vollständig verwaltete Umgebung.

Hier sind zum Beispiel einige Feature von SageMaker, die Sie bei Ihrer Arbeit nutzen können:

  • Verwenden Sie Amazon SageMaker Autopilot, um automatisch verschiedene Lösungen zu untersuchen und das beste Modell für Ihren bestimmten Datensatz zu finden.
  • Verwenden Sie Amazon SageMaker Data Wrangler, um Daten auszuwählen, Dateneinblicke zu verstehen und Daten zu transformieren, um sie für ML vorzubereiten.
  • Verwenden Sie Amazon SageMaker Experiments, um ML-Trainingsiterationen zu analysieren und zu vergleichen, um das leistungsstärkste Modell auszuwählen.
  • Verwenden Sie Amazon SageMaker Clarify, um potenzielle Verzerrungen zu erkennen und zu messen. Auf diese Weise können ML-Entwickler potenzielle Verzerrungen beheben und Modellvorhersagen erklären.

Beginnen Sie mit überwachtem und unüberwachtem Machine Learning in AWS, indem Sie noch heute ein Konto erstellen.

Weitere Schritte mit AWS

Programmentwicklung mit überwachtem Machine Learning

Erfahren Sie mehr über den Einstieg mit überwachtem Machine Learning in AWS

Weitere Informationen 
Programmentwicklung mit unüberwachtem Machine Learning

Erfahren Sie mehr über den Einstieg mit unüberwachtem Machine Learning in AWS

Weitere Informationen