Veröffentlicht am: Mar 5, 2021
AWS Glue DataBrew fügt vier neue visuelle Transformationen hinzu - Binning, Skewness, Binarization und Transpose - und hilft Datenanalysten und Datenwissenschaftlern, diese Transformationen zu nutzen, ohne Code schreiben zu müssen.
Binning ist eine Technik zur Datenvorverarbeitung, die verwendet wird, um die Auswirkungen kleinerer Beobachtungsfehler zu reduzieren. Die Binning-Transformation ermöglicht es Ihnen, eine Anzahl von mehr oder weniger kontinuierlichen Werten in eine kleinere Anzahl von "Bins" zu gruppieren. Wenn Sie z. B. Daten über eine Gruppe von Personen haben, möchten Sie vielleicht deren Alter in eine kleinere Anzahl von Altersintervallen einteilen (z. B. alle fünf Jahre zusammen gruppieren).
Schiefe ist ein Maß für die Asymmetrie der Wahrscheinlichkeitsverteilung einer reellwertigen Zufallsvariablen um ihren Mittelwert. Mit der Schiefe-Transformation können Sie die Verteilungsform und Schiefe der Daten ändern.
Binarization ist der Prozess der Aufteilung von Daten in zwei Gruppen und der Zuweisung eines von zwei Werten an alle Mitglieder derselben Gruppe. Sie können die Transformation Binarisieren verwenden, indem Sie einen Grenzwert t definieren und allen Datenpunkten unterhalb des Grenzwertes den Wert 0 und denen oberhalb den Wert 1 zuweisen. In einem einfachen Beispiel ist die Umwandlung der Grauskala eines Bildes vom 0-255-Spektrum in ein 0-1-Spektrum die Binarisierung. Dies macht Klassifizierungsalgorithmen beim maschinellen Lernen effizienter.
Transponieren ermöglicht es Ihnen, die Daten von Spalten in Zeilen zu drehen oder umgekehrt. Mit der Transponiertransformation in DataBrew können Sie sauberere Visualisierungen erstellen, indem Sie die Spalten und Zeilen drehen.
AWS Glue DataBrew ist ein visuelles Datenvorbereitungstool, mit dem Sie Daten mithilfe von mehr als 250 vorgefertigten Transformationen für die Datenvorbereitung ganz einfach bereinigen und normalisieren können, ohne Code schreiben zu müssen. Besuchen Sie zum Einstieg die AWS-Managementkonsole oder installieren Sie das DataBrew-Plugin in Ihrer Notebook-Umgebung und lesen Sie die DataBrew-Dokumentation.