데이터 마트란 무엇인가요?
데이터 마트는 조직의 사업부와 관련된 정보를 포함하는 데이터 스토리지 시스템입니다. 여기에는 회사가 더 큰 스토리지 시스템에 저장하는 데이터의 일부만 포함됩니다. 기업은 데이터 마트를 사용하여 부서별 정보를 보다 효율적으로 분석합니다. 주요 이해 관계자가 정보에 입각한 결정을 신속하게 내리는 데 사용할 수 있는 요약 데이터를 제공합니다.
예를 들어, 회사는 공급업체 정보, 주문, 센서 데이터, 직원 정보 및 재무 레코드와 같은 다양한 소스의 데이터를 데이터 웨어하우스 또는 데이터 레이크에 저장할 수 있습니다. 그러나 회사는 소셜 미디어 리뷰 및 고객 레코드와 같은 마케팅 부서와 관련된 정보를 데이터 마트에 저장합니다.
다른 유형의 데이터 스토리지 시스템과 비교하여 데이터 마트는 어떤가요?
회사는 데이터 관리 및 분석을 위해 여러 유형의 데이터 스토리지 시스템을 사용합니다. 기업에서 데이터 마트를 사용하는 상황을 이해하기 위해 몇 가지 일반적인 유형의 데이터 스토리지를 살펴보겠습니다.
데이터베이스
데이터베이스는 컴퓨터 시스템이 정보를 저장, 검색 및 분석하는 데 사용하는 조직화된 스토리지입니다. 관계형 데이터베이스와 같은 다양한 유형의 데이터베이스가 있습니다. 관계형 데이터베이스는 행과 열로 구성된 테이블에 정보를 저장합니다. 서로 다른 테이블의 데이터는 키라고 하는 고유 식별자로 연결됩니다. 키는 특정 열의 반복되지 않는 값입니다.
데이터 마트와 데이터베이스 비교
데이터 마트는 부서 데이터의 전면 요소 역할을 합니다. 데이터 마트를 사용하여 정보를 검색하고 분석할 수 있습니다. 한편 데이터베이스는 정보를 수집, 관리 및 저장합니다. 그런 다음 도구를 사용하여 저장된 정보를 처리하고 형식을 지정하고 데이터 마트로 전송할 수 있습니다.
데이터 웨어하우스
데이터 웨어하우스는 전체 비즈니스에 대한 정보를 저장하는 광범위한 데이터베이스 시스템입니다. 비즈니스 소프트웨어 및 소셜 미디어 피드와 같은 다양한 소스에서 원시 정보를 수집하고 테이블 형식으로 저장된 정형 데이터로 처리합니다. 기업은 엔터프라이즈 데이터 웨어하우스를 비즈니스 인텔리전스 도구에 연결하여 보다 현명한 결정을 내릴 수 있습니다.
데이터 마트와 데이터 웨어하우스 비교
데이터 마트는 데이터 웨어하우스의 많은 특성을 공유합니다. 차이점은 데이터 웨어하우스에는 다양한 주제에 대한 전사적 데이터가 포함되어 있다는 것입니다. 한편 데이터 마트는 특정 주제와 밀접하게 관련된 정보를 저장합니다. 예를 들어, 데이터 웨어하우스는 마케팅, 인사, 조달 및 고객 지원 부서에 대한 정보를 저장할 수 있습니다. 그러나 데이터 마트는 단일 부서와 관련된 트랜잭션 데이터만 저장할 수 있습니다. 데이터 마트 빌드의 매력은 데이터 마트를 관리하는 부서가 데이터 로드 및 관리를 완전히 제어할 수 있다는 것입니다.
많은 조직에서 데이터 공유와 같은 기술을 사용하여 데이터 마트를 중앙 데이터 웨어하우스에 게시하고 있습니다. 이를 통해 소유권을 분산시키고 워크로드를 격리하여 더 민첩해질 수 있습니다. 유사하게, 데이터 공유를 통해 부서별 데이터 마트는 데이터 웨어하우스 또는 기타 데이터 마트에서 공유된 데이터를 사용할 수 있습니다.
데이터 레이크
데이터 레이크는 원시 및 비정형 정보를 보관하는 데이터 스토리지로서 파일과 폴더에는 정보를 저장하지 않습니다. 대신 처리되지 않은 정보를 대규모 스토리지의 플랫 계층 구조에 저장합니다. 데이터 레이크는 텍스트 문서, 이미지, 비디오, 오디오 등 다양한 유형의 원시 정보를 저장합니다.
데이터 분석가는 데이터 레이크를 사용하여 비정형 데이터에서 예측 분석을 수행합니다. 예를 들어, 데이터 레이크는 기업이 감정 분석에 사용할 수 있는 소셜 미디어 리뷰의 텍스트를 저장할 수 있습니다. 데이터 분석가는 감정 분석을 사용하여 회사에 대한 부정적인 의견 추세를 감지할 수 있습니다.
데이터 마트와 데이터 레이크 비교
데이터 레이크는 처리되지 않은 데이터를 저장하기 때문에 일부 정보는 중복되거나 회사에 의미가 없을 수 있습니다. 한편, 데이터 마트는 특정 요구에 맞는 처리된 데이터를 저장합니다. 데이터 레이크는 데이터 마트의 소스가 될 수 있습니다. 기업은 데이터 마트의 기록 데이터를 보고 데이터 추세를 결정하지만 데이터 레이크를 사용하여 저장된 정보를 심층적으로 분석합니다.
OLAP
온라인 분석 처리(OLAP)는 데이터를 여러 차원으로 표현하는 방법입니다. 예를 들어, 데이터 분석가는 OLAP 큐브를 사용하여 월, 도시 및 제품을 기준으로 판매 수익을 동시에 표시합니다. OLAP 데이터 구조는 광범위하며 필드가 팩트 또는 차원으로 분류되어 데이터 중복이 발생합니다. 이는 좁은 구조와 적은 데이터 중복을 선호하는 기존의 관계형 데이터베이스와 대조됩니다.
데이터 마트와 OLAP 큐브 비교
OLAP은 데이터를 넓은 테이블로 비정규화하는 특정 정보 저장 전략입니다. OLAP은 다차원 데이터의 복잡한 표현을 단순화합니다. 일부 데이터 마트는 OLAP을 사용하여 정보를 구조화할 수 있지만 다른 데이터 마트는 기존의 정규화된 구조를 사용합니다. 비즈니스 분석가는 OLAP 구조를 활용하여 데이터 마트의 정보를 시각화합니다.
운영 데이터 스토어
운영 데이터 스토어(ODS)는 데이터 소스와 데이터 웨어하우스 간의 중개자 역할을 하는 정보 스토리지입니다. 데이터 분석가는 ODS를 사용하여 트랜잭션 데이터에 대한 실시간에 가까운 보고를 제공합니다. ODS는 간단한 쿼리를 지원하며 제한된 양의 정보만 제공합니다. 예를 들어, ODS는 지난 12시간 동안의 판매 레코드만 저장할 수 있습니다.
데이터 마트와 ODS 비교
데이터 마트는 데이터 웨어하우스에서 주제 지향 정보를 추출하지만 ODS는 처리를 위해 정보를 데이터 웨어하우스로 전송합니다. 데이터 마트는 분석할 수 있는 기록 정보를 제공하지만 ODS는 현재 작업에 대한 업데이트된 보기를 제공합니다. 예를 들어, 데이터 마트를 사용하여 지난 분기의 판매 패턴을 식별하고 ODS에서 시간별 판매 수치 업데이트를 수신할 수 있습니다.
데이터 마트가 중요한 이유는 무엇일까요?
기업에서 데이터 마트를 사용할 수 있는 몇 가지 좋은 이유가 여기에 있습니다.
보다 효율적으로 데이터 검색
기업은 데이터 마트를 사용하여 특정 정보에 보다 효율적으로 액세스할 수 있습니다. 데이터 웨어하우스와 비교할 때 데이터 마트에는 부서에서 자주 액세스하는 관련 세부 정보가 포함되어 있습니다. 따라서 비즈니스 관리자는 성과 보고서 또는 그래픽을 생성하기 위해 전체 데이터 웨어하우스를 검색할 필요가 없습니다.
의사 결정 간소화
기업은 데이터 마트를 사용하여 데이터 웨어하우스에서 데이터의 하위 세트를 만들 수 있습니다. 그러면 부서 내의 직원이 데이터를 분석하고 동일한 정보 세트를 기반으로 결정을 내릴 수 있습니다.
보다 효과적으로 정보 제어
데이터 마트는 직원들에게 매우 세분화된 액세스 권한을 제공합니다. 즉, 회사는 특정 사용자에게 특정 데이터를 보거나 검색할 수 있는 권한을 부여할 수 있습니다. 이는 기업이 데이터 데이터 거버넌스를 개선하고 정보 액세스 정책을 시행하는 데 도움이 됩니다. 예를 들어, 데이터 마트를 사용하여 데이터 웨어하우스의 특정 정보에 대한 사용자 액세스를 직원에게 제공할 수 있습니다.
유연하게 데이터 관리
데이터 마트는 데이터 웨어하우스보다 더 작고 테이블 수가 적습니다. 즉, 데이터 엔지니어가 주요 데이터베이스 변경 없이 데이터 마트에서 정보를 관리하고 변경할 수 있습니다.
데이터 마트는 어떻게 작동하나요?
데이터 마트는 원시 정보를 특정 비즈니스 부서를 위해 의미 있는 정형 콘텐츠로 변환합니다. 이를 위해 데이터 엔지니어는 데이터 웨어하우스에서 또는 외부 데이터 소스에서 직접 정보를 수신하도록 데이터 마트를 설정합니다.
데이터 웨어하우스에 연결되면 데이터 마트는 비즈니스 단위와 관련된 선택 정보를 검색합니다. 정보에 요약 데이터가 포함되는 경우가 많으며 불필요하거나 상세한 데이터는 제외됩니다.
ETL
추출, 전환, 적재(ETL)는 다양한 데이터 소스의 정보를 단일 물리적 데이터베이스로 통합하고 전송하는 프로세스입니다. 데이터 마트는 ETL을 사용하여 데이터 웨어하우스에서 가져오지 않는 외부 소스에서 정보를 검색합니다. 이 프로세스에는 다음 단계가 포함됩니다.
- 추출: 다양한 소스에서 원시 정보 수집
- 전환: 공통 형식으로 정보 구조화
- 적재: 데이터베이스로 처리된 데이터 전송
ETL 도구가 스프레드시트, 앱 및 텍스트 문서와 같은 외부 소스에서 정보를 복사합니다. 그런 다음 데이터 마트가 정보를 정형 형식으로 처리, 구성 및 저장합니다.
분석
비즈니스 분석가는 소프트웨어 도구를 사용하여 데이터 마트에서 데이터를 검색, 분석 및 표시합니다. 예를 들어, 비즈니스 인텔리전스 분석, 보고 대시보드 및 클라우드 애플리케이션을 위해 데이터 마트에 저장된 정보를 사용합니다.
각 데이터 마트는 소수의 사용자에게 서비스를 제공합니다. 예를 들어, 마케팅 관리자와 수석 마케팅 담당자는 데이터 마트에 액세스할 수 있으므로 보고서와 그래프를 생성하거나 예측 분석을 수행하는 데 걸리는 시간이 단축됩니다.
데이터 마트 유형으로 무엇이 있나요?
다음은 다양한 유형의 데이터 마트입니다.
종속 데이터 마트
종속 데이터 마트는 중앙 집중식 데이터 웨어하우스의 정보 하위 세트로 스토리지를 채웁니다. 데이터 웨어하우스는 데이터 소스에서 모든 정보를 수집합니다. 그런 다음 데이터 마트는 데이터 웨어하우스에서 주제별 정보를 쿼리하고 검색합니다.
장점과 단점
대부분의 데이터 관리 작업은 데이터 웨어하우스에서 수행됩니다. 즉, 비즈니스 분석가가 데이터 마트의 정보를 사용하기 위해 데이터베이스 관리에 고도로 숙련되지 않아도 됩니다. 종속 데이터 마트는 정보를 훨씬 쉽게 검색할 수 있게 만들지만 단일 장애 지점을 나타냅니다. 데이터 웨어하우스에 장애가 발생하면 연결된 모든 데이터 마트도 실패합니다.
독립 데이터 마트
독립 데이터 마트는 중앙 데이터 웨어하우스나 다른 데이터 마트에 의존하지 않습니다. 각 데이터 마트는 데이터 웨어하우스가 아닌 소스에서 정보를 수집합니다. 독립 데이터 마트는 소규모 회사에 적합하지만 특정 부서만 정보에 액세스하고 분석하면 됩니다.
장점과 단점
기업은 비교적 쉽게 독립적인 데이터 마트를 설정할 수 있습니다. 그러나 이를 관리하기는 어려울 수 있습니다. 비즈니스 분석가는 각 데이터 마트에서 데이터베이스 관리 작업을 수행해야 하기 때문입니다. 데이터 공유와 같은 전략을 사용하여 서로 다른 데이터 마트 간에 데이터를 공유하는 것은 간단합니다. 부서에서는 다른 부서의 데이터를 읽고 자체 데이터로 데이터를 보강할 수도 있습니다. 그러나 각 부서가 보고 있는 내용을 알 수 있도록 강력한 데이터 목록 작성 전략을 마련해야 합니다.
하이브리드 데이터 마트
하이브리드 데이터 마트는 데이터 웨어하우스와 외부 소스에서 정보를 수집합니다. 이를 통해 기업은 데이터를 데이터 웨어하우스로 보내기 전에 독립적인 데이터 소스를 유연하게 테스트할 수 있습니다.
예를 들어, 새 제품을 출시하고 초기 판매 데이터를 분석하려고 한다고 가정해 보겠습니다. 데이터 마트는 전자 상거래 소프트웨어에서 직접 가져온 판매 정보를 사용하고 데이터 마트에서 다른 제품의 판매 레코드를 검색합니다. 제품이 스토어의 영구적인 고정 제품이 된 후 거래 세부 정보를 데이터 웨어하우스로 보냅니다.
데이터 마트의 구조는 무엇인가요?
데이터 마트는 이러한 구조를 사용하여 정보를 저장하고 표시합니다.
스타
스타 구조의 중심에 팩트 테이블이 있고 여러 차원 테이블로 분기됩니다. 그 결과 스타 모양의 연결이 됩니다. 팩트 테이블은 분석 목적으로 사용할 수 있는 요약 데이터가 포함된 데이터 테이블입니다. 한편, 차원 테이블은 팩트 테이블에 설명 정보를 담고 있습니다. 각 차원 테이블은 외래 키를 사용하여 팩트 테이블에 연결됩니다. 외래 키는 제품 ID 또는 공급업체 ID와 같은 고유 식별자입니다.
예를 들어, 판매 트랜잭션에 대한 팩트 테이블에는 다음과 같은 열이 있습니다.
- 영업 ID
- 제품 ID
- 공급업체 ID
- 판매 금액
제품의 차원 테이블에는 다음 정보가 저장됩니다.
- 제품 ID
- 제품 이름
- 제품 비용
공급업체 차원 테이블에는 다음과 같은 열이 있습니다.
- 공급업체 ID
- 공급업체 이름
- 구/군/시
장점
스타 구조에서 차원 테이블은 추가 테이블로 확장되지 않도록 비정규화됩니다. 즉, 차원 테이블에 중복 데이터가 포함될 수 있지만 검색 및 검색 속도가 향상됩니다. 또한 차원 테이블을 저장하는 데 필요한 공간도 줄어듭니다.
비즈니스 분석가는 스타 구조의 데이터 마트를 사용하여 복잡한 쿼리를 간단하게 만들 수 있습니다. 특정 판매 레코드를 검색할 때 데이터 관리 시스템은 팩트 테이블을 검색합니다. 데이터 마트 시스템이 올바른 레코드를 찾으면 제품 ID와 공급업체 ID를 사용하여 각 차원 테이블에서 데이터를 쿼리합니다.
비정규화됨
비정규화된 구조는 모든 관련 데이터를 단일 테이블에 저장합니다. 팩트 테이블과 차원 테이블 간에 복잡한 결합이 없습니다. 데이터 분석가는 쿼리 속도를 향상시키기 때문에 비정규화된 데이터 마트를 사용합니다. 예를 들어, 판매 레코드 검색은 다음과 같이 비정규화된 단일 테이블에서 수행됩니다.
- 영업 ID
- 제품
- 제품 이름
- 제품 비용
- 모델 이름
- 무게
- 크기
- 공급업체
- 공급업체 이름
- 구/군/시
- 판매 금액
비정규화된 데이터 마트는 단일 테이블 접근 방식 때문에 실시간 보고에 적합합니다. 그러나 데이터 마트를 비정규화하면 데이터가 중복됩니다. 예를 들어, 동일한 제품 이름이 여러 레코드에 나타날 수 있습니다. 이로 인해 스토리지 공간이 추가되고 구현 비용이 많이 듭니다.
데이터 마트를 구현하는 단계는 무엇인가요?
클라우드 데이터 엔지니어는 다음을 수행하여 데이터 마트를 설정합니다.
- 클라우드 네이티브 데이터 플랫폼을 시작합니다.
- 비즈니스 데이터로 데이터 마트를 채웁니다. 데이터 형식이 올바르고 비즈니스 사용자와 관련이 있는지 확인합니다.
- 여러 사용자가 데이터에 액세스할 수 있도록 데이터 마트를 설정합니다. 예를 들어, 데이터 마트에 보고 대시보드를 설치합니다.
- 데이터 마트가 실행될 때 계속해서 문제를 모니터링, 최적화 및 해결합니다.
AWS에서 데이터 마트를 구현하려면 어떻게 해야 하나요?
기업은 늘어나는 데이터 볼륨을 처리해야 하며 이는 기존 데이터 마트 스토리지를 한계까지 확장합니다. 온프레미스 서버에 설치된 데이터 마트는 조정하기 어렵습니다. 클라우드 아키텍처는 데이터 마트에 대해 더 저렴하고 확장 가능하며 관리하기 쉬운 엔터프라이즈급 통합을 제공합니다.
Amazon Redshift는 클라우드에서 데이터 마트를 구현하는 데 사용할 수 있는 데이터 웨어하우징 솔루션입니다. 운영 데이터베이스, 데이터 레이크, 데이터 웨어하우스 및 수천 개의 타사 데이터 세트 전반에서 복잡하고 크기 조정된 데이터에 대해 실시간 예측 분석을 실행하여 통합적 인사이트를 얻을 수 있습니다. 기계 학습(ML) 모델을 쉽게 자동으로 생성, 훈련 및 배포할 수 있습니다. Amazon Redshift에서 데이터 마트를 생성하고 이를 사용하여 더 현명한 결정을 내릴 수 있습니다.
Amazon Redshift에는 데이터 마트에 적합한 솔루션으로 사용할 수 있는 몇 가지 주요 기능이 있습니다.
- Amazon Redshift Serverless를 사용하면 클러스터의 크기 및 규모에 대한 고려 사항이 자동으로 처리됩니다.
- 기본 데이터 공유로 인해 데이터 마트의 데이터가 데이터 웨어하우스의 데이터에 액세스하거나 데이터 웨어하우스와 공유될 수 있습니다.
지금 AWS 계정을 만들어 데이터 마트를 시작하세요.