Publicado: Mar 5, 2021
O AWS Glue DataBrew adiciona quatro novas transformações visuais: Classificação, Assimetria, Binarização e Transposição, ajudando analistas e cientistas de dados a aproveitar essas transformações sem precisar escrever nenhum código.
Classificação é uma técnica de pré-processamento de dados usada para reduzir os efeitos de pequenos erros de observação e a transformação de classificação permite agrupar números de valores mais ou menos contínuos em um número menor de "bins". Por exemplo, se você tiver dados sobre um grupo de pessoas, convém organizar suas idades em um número menor de intervalos de idade (por exemplo, agrupamento a cada cinco anos).
Assimetria é uma medida de assimetria da distribuição de probabilidade de uma variável aleatória de valor real em relação à sua média. Com a transformação de assimetria, você pode alterar a forma de distribuição e a inclinação dos dados.
Binarização é o processo de dividir os dados em dois grupos e atribuir um de dois valores a todos os membros do mesmo grupo. Você pode usar a transformação Binarizar definindo um limite t e atribuindo o valor 0 a todos os pontos de dados abaixo do limite e 1 para aqueles acima dele. Em um exemplo simples, transformar uma imagem em tons de cinza do espectro 0–255 para um espectro 0–1 é binarização. Isso torna os algoritmos do classificador mais eficientes na machine learning.
Transposição permite girar os dados de colunas para linhas ou vice-versa. Com a transformação de transposição no DataBrew, você pode criar visualizações mais limpas girando as colunas e linhas.
O AWS Glue DataBrew é uma ferramenta visual de preparação de dados que facilita a limpeza e a normalização de dados usando mais de 250 transformações pré-criadas para preparação de dados, sem a necessidade de criação de código. Para começar, acesse o Console de Gerenciamento da AWS ou instale o plug-in do DataBrew em seu ambiente de notebook e consulte a documentação do DataBrew.