Was ist Transfer Learning?
Transfer Learning (TL) ist eine Technik des Machine Learning (ML), bei der ein für eine Aufgabe vorab trainiertes Modell für eine neue, verwandte Aufgabe optimiert wird. Das Training eines neuen ML-Modells ist ein zeitaufwändiger und intensiver Prozess, der eine große Datenmenge, Datenverarbeitungsleistung und mehrere Iterationen erfordert, bevor es produktionsbereit ist. Stattdessen verwenden Unternehmen TL, um bestehende Modelle für verwandte Aufgaben mit neuen Daten neu zu trainieren. Wenn ein Modell für Machine Learning beispielsweise Bilder von Hunden erkennen kann, kann es trainiert werden, Katzen anhand eines kleineren Bilddatensatzes zu identifizieren, der die Merkmalsunterschiede zwischen Hunden und Katzen hervorhebt.
Was sind die Vorteile von Transfer Learning?
TL bietet Forschern, die ML-Anwendungen erstellen, mehrere der folgenden Vorteile.
Verbesserte Effizienz
Das Training von ML-Modellen braucht Zeit, da sie Wissen aufbauen und Muster identifizieren. Es erfordert auch einen großen Datensatz und ist rechenintensiv. In TL behält ein vortrainiertes Modell das grundlegende Wissen über Aufgaben, Merkmale, Gewichte und Funktionen bei, sodass es sich schneller an neue Aufgaben anpassen kann. Sie können einen viel kleineren Datensatz und weniger Ressourcen verwenden und gleichzeitig bessere Ergebnisse erzielen.
Bessere Zugänglichkeit
Der Aufbau neuronaler Deep-Learning-Netzwerke erfordert große Datenmengen, Ressourcen, Rechenleistung und Zeit. TL überwindet diese Hindernisse bei der Erstellung und ermöglicht es Unternehmen, ML für benutzerdefinierte Anwendungsfälle einzusetzen. Sie können bestehende Modelle zu einem Bruchteil der Kosten an Ihre Anforderungen anpassen. Mithilfe eines vortrainierten Bilderkennungsmodells können Sie beispielsweise Modelle für die medizinische Bildanalyse, Umweltüberwachung oder Gesichtserkennung mit minimalen Anpassungen erstellen.
Verbesserte Leistung
Mit TL entwickelte Modelle weisen häufig eine höhere Robustheit in unterschiedlichen und herausfordernden Umgebungen auf. Sie können besser mit realen Schwankungen und Geräuschen umgehen, da sie in ihrem ersten Training einer Vielzahl von Szenarien ausgesetzt waren. Sie liefern bessere Ergebnisse und passen sich flexibler an unvorhersehbare Bedingungen an.
Was sind die verschiedenen Transfer-Learning-Strategien?
Die Strategie, die Sie verwenden, um TL zu vereinfachen, hängt von der Domain des Modells ab, das Sie erstellen, von der Aufgabe, die es erledigen muss, und von der Verfügbarkeit der Trainingsdaten.
Transduktives Transfer Learning
Transduktives Transfer Learning beinhaltet den Transfer von Wissen von einer bestimmten Quelldomain in eine andere, aber verwandte Zieldomain, wobei der Schwerpunkt auf der Zieldomain liegt. Dies ist besonders nützlich, wenn nur wenige oder keine beschrifteten Daten aus der Zieldomain vorhanden sind.
Transduktives Transfer Learning fordert das Modell auf, anhand von zuvor gewonnenem Wissen Vorhersagen anhand von Zieldaten zu treffen. Da die Zieldaten den Quelldaten mathematisch ähnlich sind, findet das Modell Muster und arbeitet schneller.
Erwägen Sie beispielsweise, ein Stimmungsanalysemodell, das auf Produktkritiken trainiert wurde, auf die Analyse von Filmkritiken anzupassen. Die Quelldomain (Produktkritiken) und die Zieldomain (Filmkritiken) unterscheiden sich in Kontext und Besonderheiten, weisen jedoch Ähnlichkeiten in Struktur und Sprachgebrauch auf. Das Modell lernt schnell, sein Stimmungsverständnis aus dem Produktbereich auf den Filmbereich anzuwenden.
Induktives Transfer Learning
Beim induktiven Transfer Learning sind die Quell- und Zieldomains identisch, aber die Aufgaben, die das Modell erfüllen muss, unterscheiden sich. Das vortrainierte Modell kennt die Quelldaten bereits und trainiert schneller auf neue Funktionen.
Ein Beispiel für induktives Transfer Learning ist die natürliche Sprachverarbeitung (NLP). Die Modelle werden anhand einer großen Menge von Texten vorab trainiert und dann mithilfe von induktivem Transfer Learning auf bestimmte Funktionen wie die Stimmungsanalyse abgestimmt. In ähnlicher Weise werden Computer-Vision-Modelle wie VGG anhand großer Bilddatensätze vorab trainiert und dann für die Entwicklung der Objekterkennung optimiert.
Unbeaufsichtigtes Transfer Learning
Unbeaufsichtigtes Transfer Learning verwendet eine dem induktiven Transfer Learning ähnliche Strategie, um neue Fähigkeiten zu entwickeln. Sie verwenden diese Form des Transfer Learnings jedoch, wenn Sie nur unbeschriftete Daten sowohl in der Quell- als auch in der Zieldomain haben.
Das Modell lernt die gemeinsamen Merkmale unbeschrifteter Daten kennen, um sie genauer zu verallgemeinern, wenn sie zur Ausführung einer Zielaufgabe aufgefordert werden. Diese Methode ist hilfreich, wenn es schwierig oder teuer ist, beschriftete Quelldaten zu erhalten.
Stellen Sie sich beispielsweise die Aufgabe vor, verschiedene Motorradtypen in Verkehrsbildern zu identifizieren. Zunächst wird das Modell anhand einer großen Menge unbeschrifteter Fahrzeugbilder trainiert. In diesem Fall bestimmt das Modell unabhängig die Ähnlichkeiten und Unterscheidungsmerkmale verschiedener Fahrzeugtypen wie Autos, Busse und Motorräder. Als nächstes wird dem Modell ein kleiner, spezifischer Satz von Motorradbildern vorgestellt. Die Modellleistung verbessert sich im Vergleich zu zuvor erheblich.
Was sind die Schritte beim Transfer Learning?
Bei der Feinabstimmung eines Modells für Machine Learning für eine neue Aufgabe gibt es drei Hauptschritte.
Wählen Sie ein vortrainiertes Modell
Wählen Sie zunächst ein vortrainiertes Modell mit Vorkenntnissen oder Fähigkeiten für eine verwandte Aufgabe aus. Ein nützlicher Kontext für die Auswahl eines geeigneten Modells besteht darin, die Quellaufgabe jedes Modells zu bestimmen. Wenn Sie die ursprünglichen Aufgaben verstehen, die das Modell ausgeführt hat, können Sie eine finden, die effektiver zu einer neuen Aufgabe übergeht.
Konfigurieren Sie Ihre vortrainierten Modelle
Nachdem Sie Ihr Quellmodell ausgewählt haben, konfigurieren Sie es so, dass Wissen an ein Modell weitergegeben wird, um die zugehörige Aufgabe abzuschließen. Dafür gibt es zwei Hauptmethoden.
Vortrainierte Schichten einfrieren
Schichten sind die Bausteine neuronaler Netzwerke. Jede Schicht besteht aus einer Reihe von Neuronen und führt spezifische Transformationen an den Eingabedaten durch. Gewichte sind die Parameter, die das Netzwerk für die Entscheidungsfindung verwendet. Anfänglich auf zufällige Werte gesetzt, werden die Gewichte während des Trainingsprozesses angepasst, während das Modell aus den Daten lernt.
Indem Sie die Gewichte der vortrainierten Schichten einfrieren, behalten Sie sie bei und bewahren so das Wissen, das das Deep-Learning-Modell aus der Quellaufgabe gewonnen hat.
Entfernen der letzten Schicht
In einigen Anwendungsfällen können Sie auch die letzten Schichten des vortrainierten Modells entfernen. In den meisten ML-Architekturen sind die letzten Schichten aufgabenspezifisch. Wenn Sie diese letzten Schichten entfernen, können Sie das Modell für neue Aufgabenanforderungen neu konfigurieren.
Neue Schichten einführen
Die Einführung neuer Schichten zusätzlich zu Ihrem vortrainierten Modell hilft Ihnen, sich an den speziellen Charakter der neuen Aufgabe anzupassen. Die neuen Schichten passen das Modell an die Nuancen und Funktionen der neuen Anforderung an.
Das Modell für die Zieldomain trainieren
Sie trainieren das Modell anhand der Zielaufgabendaten, um seine Standardausgabe so zu entwickeln, dass sie an der neuen Aufgabe ausgerichtet ist. Das vortrainierte Modell erzeugt wahrscheinlich andere Ergebnisse als die gewünschten. Nachdem Sie die Leistung des Modells während des Trainings überwacht und bewertet haben, können Sie die Hyperparameter oder die grundlegende neuronale Netzwerkarchitektur anpassen, um die Leistung weiter zu verbessern. Im Gegensatz zu Gewichten werden Hyperparameter nicht aus den Daten gelernt. Sie sind voreingestellt und spielen eine entscheidende Rolle bei der Bestimmung der Effizienz und Effektivität des Trainingsprozesses. Sie könnten beispielsweise die Regularisierungsparameter oder die Lernraten des Modells anpassen, um seine Fähigkeit in Bezug auf die Zielaufgabe zu verbessern.
Was sind Transfer-Learning-Strategien in der generativen KI?
Transfer-Learning-Strategien sind für die Einführung generativer KI in verschiedenen Branchen von entscheidender Bedeutung. Unternehmen können bestehende Basismodelle anpassen, ohne neue Modelle anhand von Milliarden von Datenparametern in großem Maßstab trainieren zu müssen. Im Folgenden sind einige Transfer-Learning-Strategien aufgeführt, die in der generativen KI verwendet werden.
Domainfeindliches Training
Beim domainfeindlichen Training wird ein Basismodell trainiert, um Daten zu erzeugen, die von realen Daten in der Zieldomain nicht zu unterscheiden sind. Diese Technik verwendet typischerweise ein Diskriminatornetzwerk, wie es in generativen gegnerischen Netzwerken zu sehen ist, das versucht, zwischen echten Daten und generierten Daten zu unterscheiden. Der Generator lernt, immer realistischere Daten zu erstellen.
Beispielsweise kann bei der Bilderzeugung ein anhand von Fotos trainiertes Modell angepasst werden, um Kunstwerke zu erzeugen. Der Diskriminator trägt dazu bei, dass das generierte Kunstwerk stilistisch mit der Zieldomain übereinstimmt.
Lehrer-Schüler-Lernen
Das Lehrer-Schüler-Lernen beinhaltet ein größeres und komplexeres „Lehrer“-Modell, das ein kleineres und einfacheres „Schüler“-Modell lehrt. Das Schülermodell lernt, das Verhalten des Lehrermodells nachzuahmen und Wissen effektiv zu übertragen. Dies ist nützlich für den Einsatz großer generativer Modelle in Umgebungen mit eingeschränkten Ressourcen.
Beispielsweise könnte ein großes Sprachmodell (LLM) als Lehrer für ein kleineres Modell dienen und seine Fähigkeiten zur Sprachgenerierung übertragen. Dies würde es dem kleineren Modell ermöglichen, qualitativ hochwertigen Text mit weniger Rechenaufwand zu generieren.
Entflechtung von Features
Die Entflechtung von Features in generativen Modellen beinhaltet die Trennung verschiedener Aspekte von Daten, wie Inhalt und Stil, in unterschiedliche Repräsentationen. Dadurch kann das Modell diese Aspekte im Transfer-Learning-Prozess unabhängig voneinander manipulieren.
Beispielsweise könnte ein Modell bei einer Aufgabe zur Gesichtsgenerierung lernen, Gesichtszüge vom künstlerischen Stil zu trennen. Dies würde es ermöglichen, Porträts in verschiedenen künstlerischen Stilen zu erstellen und gleichzeitig die Ähnlichkeit des Subjekts beizubehalten.
Modalübergreifendes Transfer Learning
Modalübergreifendes Transfer Learning beinhaltet den Transfer von Wissen zwischen verschiedenen Modalitäten wie Text und Bildern. Generative Modelle können Repräsentationen lernen, die für alle diese Modalitäten anwendbar sind. Ein anhand von Textbeschreibungen und entsprechenden Bildern trainiertes Modell könnte lernen, aus neuen Textbeschreibungen relevante Bilder zu generieren und sein Verständnis effektiv von Text zu Bild zu übertragen.
Zero-Shot- und Few-Shot-Lernen
Beim Zero-Shot- und Few-Shot-Lernen werden generative Modelle darauf trainiert, Aufgaben auszuführen oder Daten zu generieren, für die sie während des Trainings nur wenige oder keine Beispiele gesehen haben. Dies wird durch das Erlernen umfangreicher Repräsentationen erreicht, die sich gut verallgemeinern lassen. Beispielsweise könnte ein generatives Modell trainiert werden, um Bilder von Tieren zu erstellen. Durch Few-Shot-Lernen könnte es Bilder von einem selten gesehenen Tier erzeugen, indem es Merkmale anderer Tiere versteht und kombiniert.
Wie kann AWS Ihnen bei Ihren Transfer-Learning-Anforderungen helfen?
Amazon SageMaker JumpStart ist ein ML-Hub, in dem Sie auf vortrainierte Modelle, einschließlich Grundlagenmodelle, zugreifen, um Aufgaben wie das Zusammenfassen von Artikeln und die Generierung von Bildern durchzuführen. Sie können Transfer Learning verwenden, um genaue Modelle für Ihre kleineren Datensätze zu erstellen, und das mit geringeren Trainingskosten als beim Training des Originalmodells. Mit SageMaker JumpStart können Sie beispielsweise:
- Die vortrainierten Modelle vollständig an Ihren Anwendungsfall und mit Ihren Daten anpassen, um sie schneller in der Produktion bereitzustellen.
- Auf vorgefertigte Lösungen zugreifen, um häufig auftretende Anwendungsfälle zu lösen.
- ML-Artefakte, einschließlich ML-Modelle und Notizbücher, innerhalb Ihrer Organisation teilen.
Wenn Sie den modalübergreifenden Transfer-Learning-Ansatz verwenden, können Sie auch Amazon SageMaker Debugger verwenden, um schwerwiegende versteckte Probleme zu erkennen. Sie können beispielsweise Modellvorhersagen untersuchen, um Fehler zu finden, die Robustheit Ihres Modells validieren und berücksichtigen, wie viel von dieser Robustheit auf die vererbten Fähigkeiten zurückzuführen ist. Sie können auch Eingaben und Vorprozesse für das Modell validieren, um realistische Erwartungen zu erfüllen.
Beginnen Sie mit Transfer Learning in AWS, indem Sie noch heute ein kostenloses Konto erstellen.
Nächste Schritte in AWS
Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.
Starten Sie mit der Entwicklung in der AWS-Managementkonsole.