Veröffentlicht am: Apr 27, 2022
Amazon SageMaker Data Wrangler reduziert den Zeitaufwand für die Zusammenführung und Vorbereitung von Daten für Machine Learning (ML) von Wochen auf Minuten. Mit SageMaker Data Wrangler können Sie den Prozess der Datenvorbereitung und des Feature-Engineerings vereinfachen und jeden Schritt des Datenvorbereitungs-Workflows, einschließlich der Datenauswahl, -Bereinigung, -Erkundung und -Visualisierung, über eine einzige visuelle Oberfläche abschließen. Mit dem Datenauswahl-Tool von SageMaker Data Wrangler können Sie schnell Daten aus mehreren Datenquellen wie Amazon S3, Amazon Athena, Amazon Redshift, AWS Lake Formation, Amazon SageMaker Feature Store, Databricks Delta Lake und SnowFlake auswählen.
Heute geben wir die allgemeine Verfügbarkeit von einer Datenqualitäts- und Erkenntnis-Berichtsfunktion innerhalb Data Wrangler bekannt. Um Erkenntnisse in Daten und Datenqualität für ML zu erhalten, mussten Datenwissenschaftler früher eine erhebliche Menge an Code schreiben, um diese Erkenntnisse zu importieren, zu verarbeiten, analysieren und schließlich zu exportieren – ein zeitaufwändiger und mühsamer Prozess. Mit dem Support von Erkenntnissen in Daten und Datenqualität haben Datenwissenschaftler heute mit wenigen Klicks sofortigen Zugriff auf diese Erkenntnisse. Dieser neue Bericht verifiziert automatisch die Datenqualität und erkennt Abweichungen in Ihren Daten. Datenwissenschaftler und Dateningenieure können dieses Tool verwenden, um Domänenkenntnisse erffizient und schnell anzuwenden, um Datensätze für ML-Modelltraining zu verarbeiten.
Der Bericht enthält die folgenden Services:
- Statistiken der Zusammenfassung. Dieser Abschnitt bietet Erkenntnisse in die Anzahl der Zeilen, Funktionen, fehlendes %, gültiges %, duplizierte Zeilen und eine Gliederung der Funktionsart (z. B. numerisch vs. Text).
- Warnungen zur Datenqualität. Dieser Abschnitt enthält Warnungen, die auf Anomalien in den Daten hinweisen, und enthält Elemente wie: Vorhandensein einer kleinen Minderheitsklasse, hohe Zielkardinalität, seltene Zielkennzeichnung, unausgewogene Klassenverteilung, verzerrtes Ziel, schwerschwänziges Ziel, Ausreißer im Ziel, häufige Regressionskennzeichnung, ungültige Werte und mehr.
- Erkenntnisse zur Zielspalte. Dieser Abschnitt enthält Statistiken zur Zielspalte, einschließlich gültiges %, fehlendes %, % Ausreißer, univariate Statistiken wie Min/Median/Max, und präsentiert auch Beispiele für Beobachtungen mit Ausreißern oder ungültigen Zielwerten.
- Schnelles Modell. Der Bericht zu den Datenerkenntnissen trainiert automatisch ein Modell über Ihre Daten, um eine direktionale Prüfung beim Feature-Engineering-Fortschritt zur Verfügung zu stellen und bietet zugewiesene Modellstatistiken im Bericht.
- Funktionsbedeutung. Dieser Abschnitt enthält eine Rangfolge der Funktionen nach ihrer Funktionsbedeutung, die bei der Erstellung des Berichts über Datenerkenntnisse und Datenqualität automatisch berechnet wird.
- Anomale und duplizierte Zeilen. Der Bericht zur Datenqualität und zu den Erkenntnissen erkennt anomale Beispiele mit dem Isolation-Forest-Algorithmus und lässt duplizierte Zeilen zum Vorschein kommen, die ggf. im Datensatz vorhanden sind.
- Feature-Einzelheiten. Dieser Abschnitt bietet zusammenfassende Statistiken für jede Funktion im Datensatz sowie die entsprechende Verteilung der Zielvariable.
Weitere Informationen über die Erstellung des Berichts zur Datenqualität und zu den Datenerkenntnissen und über seine Verwendung im Rahmen Ihres Workflows zur Datenvorbereitung finden Sie im Blog.
Für die ersten Schritte in den neuen Funktionen von Amazon SageMaker Data Wrangler können Sie Amazon SageMaker Studio nach dem Upgrade auf die neueste Version öffnen und im Menü auf „Datei“ > „Neu“ > „Fluss“ oder in SageMaker Studio Launcher auf „Neuer Datenfluss“ klicken. Weitere Informationen zu den neuen Funktionen finden Sie in der Dokumentation.