데이터 마이닝이란 무엇인가요?

데이터 마이닝은 대량 데이터 세트의 처리 및 탐색을 위한 분석에 사용되는 컴퓨터 지원 기법입니다. 데이터 마이닝 도구와 방법을 사용해 조직은 데이터에 숨겨진 패턴과 관계를 찾을 수 있습니다. 데이터 마이닝은 원시 데이터를 실용적인 지식으로 변환합니다. 기업은 이 지식을 사용해 문제를 해결하고 비즈니스 의사 결정의 향후 영향을 분석하며 이윤을 증가시킵니다.

데이터 마이닝이란 용어는 무엇을 의미하나요?

‘데이터 마이닝’은 부적절한 명칭입니다. 데이터 마이닝의 목표는 데이터 자체를 추출하거나 마이닝하는 것이 아니기 때문입니다. 대신 대량의 데이터가 이미 있고 데이터 마이닝은 여기에서 의미 또는 유용한 지식을 추출합니다. 데이터 수집, 저장, 분석 및 마이닝의 일반적인 프로세스가 아래에 기술되어 있습니다.

  • 데이터 수집은 고객 피드백, 결제 및 구매 주문과 같은 여러 소스에서 데이터를 캡처하는 것입니다.
  • 데이터 웨어하우징은 대규모 데이터베이스 또는 데이터 웨어하우스에 이 데이터를 저장하는 프로세스입니다.
  • 데이터 분석은 복잡한 소프트웨어 및 알고리즘을 사용하여 데이터를 추가로 처리, 저장 및 분석하는 것입니다.
  • 데이터 마이닝은 데이터 분석 또는 분석 전략의 한 분기로, 데이터에서 숨겨져 있거나 이전에 알려지지 않은 패턴을 찾는 데 사용됩니다.

데이터 마이닝이 중요한 이유는 무엇인가요?

데이터 마이닝은 모든 성공적인 분석 이니셔티브에서 중요한 부분입니다. 비즈니스에서는 지식 발견 프로세스를 사용하여 고객 신뢰를 높이고 새로운 수익원을 찾으며 고객의 재방문을 유지할 수 있습니다. 효과적인 데이터 마이닝은 비즈니스 계획 및 운영 관리의 다양한 측면을 지원합니다. 아래에 다양한 산업에서 데이터 마이닝을 사용하는 방법에 대한 예가 나와 있습니다.

통신, 미디어 및 기술

통신, 미디어 및 기술과 같이 경쟁이 치열한 수직 시장에서는 데이터 마이닝을 사용하여 고객 행동 패턴을 찾음으로써 고객 서비스를 개선합니다. 예를 들어 회사에서는 대역폭 사용량 패턴을 분석함으로써 맞춤형 서비스 업그레이드 또는 추천을 제공할 수 있습니다.

뱅킹 및 보험

금융 서비스에서는 데이터 마이닝 애플리케이션을 사용하여 복잡한 사기, 규정 준수, 위험 관리 및 고객 감소 문제를 해결할 수 있습니다. 예를 들어 보험 회사에서는 과거의 상품 실적을 경쟁사 요금과 비교하여 최적의 상품 요금을 발견할 수 있습니다.

교육

교육 제공업체에서는 데이터 마이닝 알고리즘을 사용하여 학생을 테스트하고 수업을 맞춤화하며 학습을 게임화할 수 있습니다. 데이터를 중심으로 학업 진도를 통합하여 보여주면 학생에게 필요한 것과 학생을 도울 수 있는 방법을 파악하는 데 도움이 됩니다.

제조

제조 서비스에서는 데이터 마이닝 기법을 사용하여 설비 종합 효율(OEE), 서비스 수준, 제품 품질 및 공급망 효율성에 대한 실시간 및 예측 분석을 제공할 수 있습니다. 예를 들어 제조업체는 기록 데이터를 사용하여 생산 기계의 마모를 예측하고 유지 관리를 예상할 수 있습니다. 그런 다음 생산 일정을 최적화하고 가동 중지 시간을 줄일 수 있습니다.

소매

소매 회사에는 고객 구매 행동에 대한 원시 데이터가 포함된 대규모 고객 데이터베이스가 있습니다. 데이터 마이닝을 사용하면 이 데이터를 처리하여 마케팅 캠페인 및 매출 예측과 관련된 인사이트를 도출할 수 있습니다. 소매 회사에서는 보다 정확한 데이터 모델을 통해 매출 및 물류를 최적화하여 고객 만족도를 개선할 수 있습니다. 예를 들어 데이터 마이닝을 통해 인기 계절 제품을 찾고 미리 재고를 축적하여 막바지 물량 부족을 방지할 수 있습니다.

데이터 마이닝은 어떻게 작동하나요?

Cross-Industry Standard Process for Data Mining(CRISP-DM)은 데이터 마이닝 프로세스를 시작하기에 훌륭한 지침입니다. CRISP-DM은 산업 도구 및 애플리케이션 중립적인 방법론이자 프로세스 모델입니다.

  • 방법론으로서 이것은 데이터 마이닝 프로젝트의 일반적인 단계를 설명하고 각 단계에 관련된 태스크를 기술하며 이러한 태스크 간의 관계를 설명합니다.
  • 프로세스 모델로서 CRISP-DM은 데이터 마이닝 수명 주기의 개요를 제공합니다.

데이터 마이닝 프로세스의 6단계는 무엇인가요?

데이터 팀은 유연한 CRISP-DM 단계를 사용하여 필요에 따라 단계 앞뒤로 이동할 수 있습니다. 또한 소프트웨어 기술을 통해 일부 태스크를 수행하거나 지원할 수 있습니다.

1. 비즈니스 이해

데이터 사이언티스트 또는 데이터 마이너는 프로젝트 목표 및 범위를 식별하는 것에서 시작합니다. 이들은 비즈니스 이해 관계자와 협업하여 특정 정보를 식별합니다.

  • 해결해야 하는 문제
  • 프로젝트 제약 또는 제한
  • 잠재적 솔루션의 비즈니스 영향

그런 다음 이 정보를 사용하여 데이터 마이닝 목표를 정의하고 지식 발견에 필요한 리소스를 식별합니다.

2. 데이터 이해

데이터 사이언티스트는 비즈니스 문제를 이해한 후에는 데이터 예비 분석을 시작합니다. 다양한 소스로부터 데이터 세트를 수집하고 액세스 권한을 획득한 후 데이터 설명 보고서를 준비합니다. 이 보고서에는 데이터 유형, 수량, 데이터 처리에 대한 하드웨어 및 소프트웨어 요구 사항이 포함됩니다. 비즈니스에서 계획을 승인하면 데이터를 탐색하고 확인하는 작업을 시작합니다. 기본적인 통계 기법을 사용하여 데이터를 조작하고 데이터 품질을 평가하며 다음 단계에 사용할 최종 데이터 세트를 선택합니다.

3. 데이터 준비

데이터 마이너는 대부분의 시간을 이 단계에 쓰는데, 데이터 마이닝 소프트웨어에 고품질 데이터를 제공해야 하기 때문입니다. 비즈니스 프로세스에서는 마이닝 외의 다른 이유로 데이터를 수집하고 저장하므로 데이터 마이너는 모델링에 사용하기 전에 데이터를 구체화해야 합니다. 데이터 준비에는 다음 프로세스가 포함됩니다.

데이터 정리 

예를 들어 누락된 데이터, 데이터 오류, 기본값 및 데이터 교정을 처리합니다.

데이터 통합

예를 들어 2개의 구분된 데이터 세트를 결합하여 최종 대상 데이터 세트를 설정합니다.

데이터 형식 지정

예를 들어 데이터 유형을 변환하거나 사용하는 특정 마이닝 기술에 맞게 데이터를 구성합니다.

4. 데이터 모델링

데이터 마이너는 준비된 데이터를 데이터 마이닝 소프트웨어에 입력하고 결과를 조사합니다. 이를 위해 데이터 마이너는 여러 데이터 마이닝 기술 및 도구 중에서 선택합니다. 또한 데이터 마이닝 결과의 품질을 평가하기 위한 테스트를 작성해야 합니다. 데이터를 모델링하기 위해 데이터 사이언티스트는 다음을 수행할 수 있습니다.

  • 알려진 결과가 있는 유사한 데이터 세트에서 기계 학습(ML) 모델을 훈련합니다.
  • 이 모델을 사용하여 알려지지 않은 데이터 세트를 추가로 분석합니다.
  • 결과가 만족스러울 때까지 데이터 마이닝 소프트웨어를 조정하고 다시 구성합니다.

5. 평가

모델을 생성한 후 데이터 마이너는 원래 비즈니스 목표를 기준으로 측정을 시작합니다. 결과를 비즈니스 분석가와 공유하고 피드백을 수집합니다. 모델에서 원래 질문에 대한 답을 얻거나 이전에 알려지지 않은 새로운 패턴을 확인하게 될 수 있습니다. 데이터 마이너는 비즈니스 피드백에 따라 모델을 변경하거나 비즈니스 목표를 조정하거나 데이터를 검토할 수 있습니다. 지속적인 평가, 피드백 및 수정은 지식 발견 프로세스의 일부입니다.

6. 배포

배포 중에 다른 이해 관계자는 작업 모델을 사용하여 비즈니스 인텔리전스를 생성할 수 있습니다. 데이터 사이언티스트는 배포 프로세스를 계획합니다. 여기에는 다른 사람들에게 모델의 기능을 가르치고 데이터 마이닝 애플리케이션을 지속적으로 모니터링 및 유지 관리하기 위한 계획이 포함됩니다. 비즈니스 분석가는 애플리케이션을 사용하여 경영진 보고서를 생성하고 결과를 고객과 공유하며 비즈니스 프로세스를 개선합니다.

데이터 마이닝을 위한 기술에는 어떤 것들이 있나요?

데이터 마이닝 기법은 통계 분석, 기계 학습(ML) 및 수학 등이 교차하는 다양한 학습 분야에서 도출됩니다. 아래에 몇 가지 예가 나와 있습니다.

연관 규칙 마이닝

연관 규칙 마이닝은 관련이 없는 것으로 보이는 2개의 서로 다른 데이터 세트 간의 관계를 찾는 프로세스입니다. If-then 문으로 두 데이터 포인트 간에 관계가 있을 확률을 증명합니다. 데이터 사이언티스트는 지원 및 신뢰도 기준을 사용하여 결과의 정확도를 측정합니다. 지원은 데이터 세트에서 관련된 요소가 나타나는 빈도를 측정하고 신뢰도는 if-then 문이 정확한 횟수를 보여줍니다.

예를 들어 고객은 어떤 품목을 구매할 때 관련된 두 번째 품목도 구매하는 경우가 많습니다. 소매업체는 과거의 구매 데이터에서 연관 마이닝을 사용하여 신규 고객의 관심사를 식별할 수 있습니다. 그런 다음 데이터 마이닝 결과를 사용하여 온라인 스토어의 추천 항목 세션을 채울 수 있습니다.

분류

분류는 ML 알고리즘을 훈련하여 데이터를 구분된 범주로 정렬하는 복잡한 데이터 마이닝 기법입니다. 이 기법은 의사 결정 트리 및 근접 이웃과 같은 통계 방법을 사용하여 범주를 식별합니다. 이 모든 방법에서 알고리즘은 알려진 데이터 분류를 사용하여 새로운 데이터 요소의 유형을 추측하도록 프로그래밍됩니다.

예를 들어 분석가는 레이블링된 사과 및 망고 이미지를 사용하여 데이터 마이닝 소프트웨어를 훈련할 수 있습니다. 정확도가 어느 정도가 되면 소프트웨어로 새 그림이 사과인지 망고인지 다른 과일인지 예측할 수 있습니다.

클러스터링

클러스터링은 여러 데이터 포인트를 유사성을 기준으로 하나로 그룹화하는 것입니다. 특정 범주로 데이터를 구분할 수 없지만 유사성에서 패턴을 찾을 수 있다는 점에서 분류와 다릅니다. 데이터 마이닝 결과는 각 모음이 다른 그룹과 구분되지만 각 클러스터의 객체는 어떤 방식으로 유사한 클러스터의 세트입니다.

예를 들어 클러스터 분석은 설문 조사의 다변수 데이터 작업 시 시장 조사에 도움이 될 수 있습니다. 시장 조사에서는 클러스터 분석을 사용하여 고객을 시장 부문으로 나눔으로써 서로 다른 그룹 간의 관계에 대한 이해를 높입니다.

시퀀스 및 경로 분석

데이터 마이닝 소프트웨어는 특정 이벤트 세트 또는 값 세트가 이후 세트로 이어지는 패턴을 찾기도 합니다. 데이터에서 주기적인 간격으로 일어나는 일부 변형을 인식하거나 데이터 포인트의 시간대별 변화를 인식할 수 있습니다.

예를 들어 비즈니스에서는 경로 분석을 사용하여 연휴 직전에 특정 제품 판매량이 급증하는 것을 발견하거나 날씨가 따뜻해지면 웹 사이트 방문자가 증가하는 것을 알게 될 수 있습니다.

데이터 마이닝에는 어떤 유형이 있나요?

데이터 마이닝은 데이터의 종류와 마이닝의 목적에 따라 다양한 분기와 사양으로 나뉠 수 있습니다. 아래에서 그 일부를 살펴보도록 하겠습니다.

프로세스 마이닝

프로세스 마이닝은 데이터 마이닝의 한 분기로, 비즈니스 프로세스를 검색, 모니터링 및 개선하는 것을 목표로 합니다. 정보 시스템에서 사용할 수 있는 이벤트 로그에서 지식을 추출합니다. 조직에서 매일의 프로세스 상황을 확인하고 이해하는 데 도움이 됩니다.

예를 들어 전자 상거래 비즈니스에는 조달, 판매, 결제, 수거 및 배송과 같은 많은 프로세스가 있습니다. 조달 데이터 로그를 마이닝하면 공급업체 배송 신뢰성이 54%임을 확인하거나 공급업체의 12%가 일관되게 조기에 배송하고 있음을 확인할 수 있습니다. 이 정보를 사용하여 공급업체 관계를 최적화할 수 있습니다.

텍스트 마이닝

텍스트 마이닝 또는 텍스트 데이터 마이닝은 데이터 마이닝 소프트웨어를 사용하여 텍스트를 읽고 이해합니다. 데이터 사이언티스트는 텍스트 마이닝을 사용하여 웹 사이트, 서적, 이메일, 후기 및 기사와 같은 서면 리소스에서의 지식 검색을 자동화합니다.

예를 들어 디지털 미디어 회사는 텍스트 마이닝을 사용하여 온라인 동영상의 댓글을 자동으로 읽고 시청자 후기를 긍정 또는 부정으로 분류할 수 있습니다.

예측 마이닝

예측 데이터 마이닝은 비즈니스 인텔리전스를 사용하여 동향을 예측합니다. 비즈니스 리더의 의사 결정이 회사의 미래에 미치는 영향을 조사하여 효과적인 선택을 하는 데 도움이 됩니다.

예를 들어 과거의 제품 반품 데이터를 살펴봄으로써 손실로 연결되지 않는 보증 제도를 설계할 수 있습니다. 예측 마이닝을 사용하여 내년의 잠재적 반품 수를 예측하고 제품 가격을 결정할 때 손실을 고려한 1년간의 보증 계획을 만들 수 있습니다.

AWS는 데이터 마이닝을 어떻게 지원하나요?

Amazon SageMaker는 선도적인 데이터 마이닝 소프트웨어 플랫폼입니다. 데이터 마이너와 개발자가 고품질 기계 학습(ML) 모델을 준비, 구축, 훈련 및 배포하는 데 도움이 됩니다. 또한 데이터 마이닝 프로세스를 위한 여러 도구가 포함되어 있습니다.

  • Amazon SageMaker Data Wrangler는 마이닝을 위해 데이터를 수집하고 준비하는 시간을 몇 주에서 몇 분으로 줄여줍니다.
  • Amazon SageMaker Studio는 데이터 과학 작업에서 ML 개발 단계를 수행할 수 있는 웹 기반의 단일 시각적 인터페이스를 제공하므로 데이터 과학 팀의 생산성이 개선됩니다. SageMaker Studio는 데이터 사이언티스트가 모델을 구축, 훈련 및 배포할 때 각 단계에 대한 완벽한 액세스, 제어 및 인사이트를 제공합니다.
  • 분산 훈련 라이브러리는 분할 알고리즘을 사용하여 대규모 모델 및 훈련 데이터 세트를 모델링용으로 자동으로 분할합니다.
  • Amazon SageMaker Debugger는 실시간 훈련 지표를 캡처하여 ML 모델을 최적화합니다. 예를 들어 이상이 감지되면 경보를 전송합니다. 이렇게 하면 부정확한 모델 예측을 즉시 수정하는 데 도움이 됩니다.

지금 바로 무료 AWS 계정을 만들어 데이터 마이닝을 시작하세요.

AWS를 활용한 데이터 마이닝의 다음 단계

제품 관련 추가 리소스 확인
분석 서비스에 대해 자세히 알아보기 
무료 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다. 

가입 
콘솔에서 구축 시작

AWS 관리 콘솔에서 AWS로 구축을 시작하세요.

로그인