投稿日: Mar 5, 2021
AWS Glue DataBrew では、Binning (ビニング) 、Skewness (歪度) 、Binarization (2 値化) 、Transpose (転置) の 4 つの新しいビジュアル変換が追加され、データアナリストやデータサイエンティストがコーディング不要でこれらの変換機能を利用できます。
Binning (ビニング) は、マイナーな観測エラーの影響を低減するために使用されるデータ前処理技術であり、ビニング変換により、ほぼ連続する値の数をより少ない数の「ビン」にグループ化できます。たとえば、人のあるグループに関するデータがある場合、年齢を一定間隔で区切り、それぞれを並べることができます(例えば、5 間隔でグループ化するなど)。
Skewness (歪度) とは、その平均についての実際値のランダム変数の確率分布の非対称性の尺度です。歪度変換を使用すると、データの分布の形状と歪みを変更できます。
Binarization (2 値化)とは、データを 2 つのグループに分割し、同じグループのすべてのメンバーに 2 つの値のうち 1 つを割り当てる処理です。Binarize (2 値化) 変換を使用するには、しきい値 t を定義し、しきい値より下のすべてのデータポイントに値 0 を割り当てて、しきい値より上のデータポイントに 1 を割り当てます。簡単な例では、イメージのグレースケールを 0~255 のスペクトルから 0 か 1 のスペクトルに変換することを 2 値化変換といいます。これにより、分類器アルゴリズムが機械学習でより効率的になります。
Transpose (転置) を使用すると、データを列から行に、またはその逆に回転できます。DataBrew の転置変換では、列と行を入れ替えることで、より明確に視覚化できます。
AWS Glue DataBrew は、あらかじめ構築済みの 250 以上の変換を使用して、コードを記述することなくデータを簡単にクリーニングし、正規化できるビジュアルデータ準備ツールです。。開始するには、AWS マネジメントコンソールにアクセスするか、またはノートブック環境に DataBrew プラグインをインストールして、DataBrew のドキュメントを参照してください。