게시된 날짜: Mar 5, 2021
AWS Glue DataBrew는 데이터 분석가 및 데이터 사이언티스트가 코드를 작성하지 않고 활용할 수 있는 구간화, 왜곡, 이진화 및 전치의 네 가지 시각적 변환을 추가합니다.
구간화(Binning)는 작은 관측 오류의 효과를 줄이는 데 사용되는 데이터 사전 처리 기법으로서, 구간화 변환을 사용하면 대체로 연속적인 값으로 이루어진 수를 여러 개의 ‘구간(bin)’으로 그룹화할 수 있습니다. 예를 들어, 사람들의 그룹에 대한 데이터가 있는 경우 작은 수의 나이 구간으로 연령대를 정렬할 수 있습니다(예: 5년 간격).
왜곡(Skewness)은 평균에 대해 실제 값을 가진 임의 변수의 확률 분포 비대칭성을 측정합니다. 왜곡(Skewness) 변환을 사용하면 분산 형상 및 왜곡을 변경할 수 있습니다.
이진화(Binarization)는 데이터를 두 개의 그룹으로 나누고 동일한 그룹의 모든 구성원에 두 개의 값 중 하나를 할당하는 프로세스입니다. 이진화(Binarization) 변환에서는 임계값 t를 정의하고 임계값 아래의 모든 데이터 포인트에 0의 값을 지정하고 임계값 위의 모든 값에 1을 지정합니다. 간단한 예를 들자면, 0~255 범위의 스펙트럼을 가진 이미지의 회색조를 0~1의 스펙트럼으로 변환하는 것이 이진화입니다. 이것은 기계 학습의 분류기 알고리즘을 더 효과적으로 만들어줍니다.
전치(Transpose)는 데이터를 열에서 행으로 또는 그 반대로 회전시킬 수 있게 해 줍니다. DataBrew의 전치(Transpose) 변환을 사용하면 열과 행을 회전시켜 더욱 깔끔한 시각화를 생성할 수 있습니다.
AWS Glue DataBrew는 코드를 작성할 필요 없이 데이터 준비를 위해 사전 구축한 250개 이상의 변환을 사용하여 데이터를 쉽게 정리하고 정규화할 수 있는 시각적 데이터 준비 도구입니다. 시작하려면 AWS 관리 콘솔을 참조하거나 Notebook 환경에 DataBrew 플러그인을 설치하고 DataBrew 설명서를 참조하세요.