Xử lý phân tích trực tuyến là gì?
Xử lý phân tích trực tuyến (OLAP) là công nghệ phần mềm bạn có thể sử dụng để phân tích dữ liệu kinh doanh từ các quan điểm khác nhau. Các tổ chức thu thập và lưu trữ dữ liệu từ nhiều nguồn dữ liệu, chẳng hạn như trang web, ứng dụng, đồng hồ thông minh và hệ thống nội bộ. OLAP kết hợp và nhóm dữ liệu này thành các danh mục để cung cấp thông tin chi tiết có thể hành động cho lập kế hoạch chiến lược. Ví dụ, một nhà bán lẻ lưu trữ dữ liệu về tất cả các sản phẩm mà nó bán, chẳng hạn như màu sắc, kích thước, chi phí và vị trí. Nhà bán lẻ cũng thu thập dữ liệu mua hàng của khách hàng, chẳng hạn như tên của các mặt hàng đã đặt hàng và tổng giá trị bán hàng, trong một hệ thống khác. OLAP kết hợp các tập dữ liệu để trả lời các câu hỏi như sản phẩm màu nào phổ biến hơn hoặc vị trí sản phẩm ảnh hưởng đến doanh số bán hàng như thế nào.
Tại sao OLAP lại quan trọng?
Xử lý phân tích trực tuyến (OLAP) giúp các tổ chức xử lý và hưởng lợi từ lượng thông tin kỹ thuật số ngày càng tăng. Sau đây là một số lợi ích của OLAP.
Đưa ra quyết định nhanh hơn
Các doanh nghiệp sử dụng OLAP để đưa ra các quyết định nhanh chóng và chính xác nhằm duy trì khả năng cạnh tranh trong một nền kinh tế tốc độ nhanh. Thực hiện truy vấn phân tích trên nhiều cơ sở dữ liệu quan hệ mất nhiều thời gian vì hệ thống máy tính tìm kiếm qua nhiều bảng dữ liệu. Mặt khác, các hệ thống OLAP tính toán trước và tích hợp dữ liệu để các chuyên viên phân tích kinh doanh có thể lập báo cáo nhanh hơn khi cần thiết.
Hỗ trợ người dùng không chuyên
Các hệ thống OLAP giúp việc phân tích dữ liệu phức tạp trở nên dễ dàng hơn cho những người dùng doanh nghiệp không chuyên. Người dùng doanh nghiệp có thể thực hiện các phép toán phân tích phức tạp và lập báo cáo thay vì học cách vận hành cơ sở dữ liệu.
Chế độ xem dữ liệu tích hợp
OLAP cung cấp một nền tảng thống nhất cho tiếp thị, tài chính, sản xuất và các bộ phận kinh doanh khác. Các nhà quản lý và người ra quyết định có thể nhìn thấy bức tranh toàn cảnh và giải quyết vấn đề một cách hiệu quả. Họ có thể thực hiện phân tích tình huống giả định, cho thấy tác động của các quyết định được đưa ra bởi một bộ phận đối với các hoạt động khác của doanh nghiệp.
Kiến trúc OLAP là gì?
Các hệ thống xử lý phân tích trực tuyến (OLAP) lưu trữ dữ liệu đa chiều bằng cách biểu diễn thông tin dưới dạng hai chiều trở lên hoặc các danh mục. Dữ liệu hai chiều bao gồm các cột và hàng, nhưng dữ liệu đa chiều có nhiều đặc điểm hơn. Ví dụ: dữ liệu đa chiều về doanh số sản phẩm có thể bao gồm các yếu tố sau:
- Loại sản phẩm
- Vị trí
- Thời gian
Các kỹ sư dữ liệu xây dựng một hệ thống OLAP đa chiều bao gồm các yếu tố sau.
Kho lưu trữ dữ liệu
Kho dữ liệu thu thập thông tin từ các nguồn khác nhau, bao gồm những ứng dụng, tệp và cơ sở dữ liệu. Nó xử lý thông tin bằng các công cụ khác nhau để chuẩn bị dữ liệu sẵn sàng cho mục đích phân tích. Ví dụ: kho dữ liệu có thể thu thập thông tin từ cơ sở dữ liệu quan hệ lưu trữ dữ liệu dưới dạng bảng với các hàng và cột.
Công cụ ETL
Các công cụ trích xuất, chuyển đổi và tải (ETL) là những quy trình cơ sở dữ liệu tự động truy xuất, thay đổi và chuẩn bị dữ liệu thành một định dạng phù hợp cho mục đích phân tích. Kho dữ liệu sử dụng ETL để chuyển đổi và chuẩn hóa thông tin từ nhiều nguồn khác nhau trước khi cung cấp cho các công cụ OLAP.
Máy chủ OLAP
Máy chủ OLAP là một thiết bị cơ sở hỗ trợ cho hệ thống OLAP. Nó sử dụng các công cụ ETL để chuyển đổi thông tin trong cơ sở dữ liệu quan hệ và chuẩn bị chúng cho các thao tác OLAP.
Cơ sở dữ liệu OLAP
Cơ sở dữ liệu OLAP là một cơ sở dữ liệu riêng biệt kết nối với kho dữ liệu. Các kỹ sư dữ liệu đôi khi sử dụng cơ sở dữ liệu OLAP để giảm bớt gánh nặng từ phân tích OLAP cho kho dữ liệu. Họ cũng sử dụng cơ sở dữ liệu OLAP để lập mô hình dữ liệu OLAP dễ dàng hơn.
Khối OLAP
Khối dữ liệu là một mô hình đại diện cho một mảng thông tin đa chiều. Mặc dù dễ dàng hình dung hơn dưới dạng một mô hình dữ liệu ba chiều, hầu hết các khối dữ liệu đều có nhiều hơn ba chiều. Một khối OLAP, hay siêu khối, là thuật ngữ để chỉ khối dữ liệu trong hệ thống OLAP. Các khối OLAP không linh hoạt vì bạn không thể thay đổi các yếu tố và dữ liệu cơ bản sau khi bạn đã lập mô hình. Ví dụ, nếu bạn thêm yếu tố kho vào một khối có các yếu tố sản phẩm, vị trí và thời gian, bạn sẽ phải lập lại toàn bộ mô hình khối.
Công cụ phân tích OLAP
Các chuyên viên phân tích kinh doanh sử dụng những công cụ OLAP để tương tác với khối OLAP. Họ thực hiện các thao tác như cắt lớp, chia nhỏ và xoay để hiểu sâu hơn về thông tin nhất định trong khối OLAP.
OLAP hoạt động như thế nào?
OLAP hoạt động như thế nào?
Một hệ thống xử lý phân tích trực tuyến (OLAP) hoạt động bằng cách thu thập, tổ chức, tổng hợp và phân tích dữ liệu theo các bước sau:
- Máy chủ OLAP thu thập dữ liệu từ nhiều nguồn dữ liệu, bao gồm cơ sở dữ liệu quan hệ và kho dữ liệu.
- Sau đó, các công cụ trích xuất, chuyển đổi và tải (ETL) làm sạch, tổng hợp, tính toán trước và lưu trữ dữ liệu trong một khối OLAP theo số lượng chiều được chỉ định.
- Các chuyên viên phân tích kinh doanh sử dụng công cụ OLAP để truy vấn và lập báo cáo từ dữ liệu đa chiều trong khối OLAP.
OLAP sử dụng ngôn ngữ truy vấn đa chiều (MDX) để truy vấn khối OLAP. MDX là một truy vấn, tương tự như SQL, cung cấp một tập các hướng dẫn để thao tác cơ sở dữ liệu.
OLAP có những loại nào?
Các hệ thống xử lý phân tích trực tuyến (OLAP) hoạt động theo ba cách chính.
MOLAP
Xử lý phân tích trực tuyến đa chiều (MOLAP) liên quan đến việc tạo ra một khối dữ liệu đại diện cho dữ liệu đa chiều từ một kho dữ liệu. Hệ thống MOLAP lưu trữ dữ liệu được tính toán trước trong siêu khối. Các kỹ sư dữ liệu sử dụng MOLAP vì loại công nghệ OLAP này cung cấp phân tích tốc độ cao.
ROLAP
Thay vì sử dụng một khối dữ liệu, xử lý phân tích trực tuyến quan hệ (ROLAP) cho phép các kỹ sư dữ liệu thực hiện phân tích dữ liệu đa chiều trên một cơ sở dữ liệu quan hệ. Nói cách khác, các kỹ sư dữ liệu sử dụng truy vấn SQL để tìm kiếm và truy xuất thông tin cụ thể dựa trên các chiều yêu cầu. ROLAP phù hợp cho phân tích dữ liệu rộng và chi tiết. Tuy nhiên, ROLAP có hiệu suất truy vấn chậm so với MOLAP.
HOLAP
Xử lý phân tích trực tuyến lai (HOLAP) kết hợp MOLAP và ROLAP để mang tới những ưu điểm tốt nhất của cả hai kiến trúc. HOLAP cho phép các kỹ sư dữ liệu nhanh chóng lấy kết quả phân tích từ một khối dữ liệu và trích xuất thông tin chi tiết từ cơ sở dữ liệu quan hệ.
Lập mô hình dữ liệu trong OLAP là gì?
Lập mô hình dữ liệu là việc biểu diễn dữ liệu trong kho dữ liệu hoặc cơ sở dữ liệu xử lý phân tích trực tuyến (OLAP). Lập mô hình dữ liệu đóng vai trò rất quan trọng đối với xử lý phân tích trực tuyến quan hệ (ROLAP) vì nó phân tích dữ liệu trực tiếp từ cơ sở dữ liệu quan hệ. Nó lưu trữ dữ liệu đa chiều như một lược đồ ngôi sao hoặc bông tuyết.
Lược đồ ngôi sao
Lược đồ ngôi sao bao gồm một bảng dữ kiện và nhiều bảng thứ nguyên. Bảng dữ kiện là một bảng dữ liệu chứa các trị số liên quan đến quy trình kinh doanh và bảng thứ nguyên chứa các giá trị mô tả mỗi thuộc tính trong bảng dữ kiện. Bảng dữ kiện đề cập đến các bảng thứ nguyên với khóa ngoại, chúng là mã định danh duy nhất tương quan với thông tin tương ứng trong bảng thứ nguyên.
Trong lược đồ ngôi sao, một bảng dữ kiện liên kết với một số bảng thứ nguyên khiến cho mô hình dữ liệu trông giống một ngôi sao. Sau đây là một ví dụ về một bảng dữ kiện doanh số sản phẩm:
- ID sản phẩm
- ID vị trí
- Salesperson ID (ID nhân viên bán hàng)
- Doanh số bán hàng
ID sản phẩm báo cho hệ thống cơ sở dữ liệu truy xuất thông tin từ bảng thứ nguyên của sản phẩm, có thể trông như sau:
- ID sản phẩm
- Tên sản phẩm
- Loại sản phẩm
- Chi phí sản phẩm
Tương tự, ID vị trí chỉ đến một bảng thứ nguyên vị trí, có thể bao gồm thông tin sau:
- ID vị trí
- Quốc gia
- Thành phố
Bảng nhân viên bán hàng có thể trông như sau:
- Salesperson ID (ID nhân viên bán hàng)
- Tên
- Họ
- Thư điện tử
Lược đồ bông tuyết
Lược đồ bông tuyết là bản mở rộng của lược đồ ngôi sao. Một số bảng thứ nguyên có thể dẫn đến một hoặc nhiều bảng thứ nguyên phụ. Điều này tạo ra một hình dạng giống như bông tuyết khi các bảng thứ nguyên được kết hợp với nhau.
Ví dụ: bảng thứ nguyên sản phẩm có thể chứa các trường sau:
- ID sản phẩm
- Tên sản phẩm
- ID loại sản phẩm
- Chi phí sản phẩm
ID loại sản phẩm kết nối với bảng thứ nguyên khác như được minh họa trong ví dụ sau:
- ID loại sản phẩm
- Tên loại
- Phiên bản
- Biến thể
Các thao tác OLAP là gì?
Các chuyên viên phân tích kinh doanh thực hiện một số thao tác phân tích cơ bản với một khối xử lý phân tích trực tuyến đa thứ nguyên (MOLAP).
Cuộn lên
Trong cuộn lên, hệ thống xử lý phân tích trực tuyến (OLAP) tóm tắt dữ liệu theo các thuộc tính cụ thể. Nói cách khác, thao tác này hiển thị dữ liệu ít chi tiết hơn. Ví dụ: bạn có thể xem doanh số sản phẩm tại New York, California, London và Tokyo. Một thao tác cuộn lên sẽ cung cấp dữ liệu bán hàng dựa trên quốc gia, chẳng hạn như Hoa Kỳ, Vương Quốc Anh và Nhật Bản.
Khoan xuống
Khoan xuống trái ngược với thao tác cuộn lên. Các chuyên viên phân tích kinh doanh di chuyển dần xuống theo từng bậc và trích xuất thông tin họ cần. Ví dụ: họ có thể chuyển từ xem dữ liệu doanh số theo năm sang trực quan hóa dữ liệu theo tháng.
Cắt lớp
Các kỹ sư dữ liệu sử dụng thao tác cắt lớp để tạo góc nhìn hai chiều từ khối OLAP. Ví dụ: một khối MOLAP sắp xếp dữ liệu theo sản phẩm, thành phố và tháng. Bằng cách cắt lớp khối, các kỹ sư dữ liệu có thể tạo ra một bảng giống như bảng tính bao gồm các sản phẩm và thành phố trong một tháng cụ thể.
Chia nhỏ
Các kỹ sư dữ liệu sử dụng thao tác chia nhỏ để tạo ra một khối con nhỏ hơn từ một khối OLAP. Họ xác định các chiều yêu cầu và xây dựng một khối nhỏ hơn từ siêu khối ban đầu.
Xoay
Thao tác xoay đề cập đến việc xoay khối OLAP dọc theo một trong các chiều của nó để có được một góc nhìn khác về mô hình dữ liệu đa chiều. Ví dụ, một khối OLAP ba chiều có những yếu tố sau đây trên các trục tương ứng:
- Trục X—sản phẩm
- Trục Y—vị trí
- Trục Z—thời gian
Sau khi xoay, khối OLAP có cấu hình như sau:
- Trục X—vị trí
- Trục Y—thời gian
- Trục Z—sản phẩm
OLAP có gì khác so với các phương pháp phân tích dữ liệu khác?
Khai thác dữ liệu
Khai thác dữ liệu là công nghệ phân tích xử lý khối lượng lớn dữ liệu lịch sử để tìm ra các mẫu và thông tin chuyên sâu. Các chuyên viên phân tích kinh doanh sử dụng những công cụ khai thác dữ liệu để khám phá các mối quan hệ trong dữ liệu, đồng thời đưa ra dự đoán chính xác về xu hướng trong tương lai.
OLAP và khai thác dữ liệu
Xử lý phân tích trực tuyến (OLAP) là một công nghệ phân tích cơ sở dữ liệu liên quan đến việc truy vấn, trích xuất và nghiên cứu dữ liệu tóm tắt. Mặt khác, khai thác dữ liệu liên quan đến việc đi sâu vào tìm hiểu thông tin chưa được xử lý. Ví dụ, các nhà tiếp thị có thể sử dụng những công cụ khai thác dữ liệu để phân tích hành vi của người dùng từ lịch sử truy cập trang web của họ. Sau đó, họ có thể sử dụng phần mềm OLAP để kiểm tra các hành vi từ nhiều góc độ khác nhau, chẳng hạn như thời lượng, thiết bị, quốc gia, ngôn ngữ và loại trình duyệt.
OLTP
Xử lý giao dịch trực tuyến (OLTP) là một công nghệ dữ liệu lưu trữ thông tin một cách nhanh chóng và đáng tin cậy trong một cơ sở dữ liệu. Các kỹ sư dữ liệu sử dụng những công cụ OLTP để lưu trữ dữ liệu giao dịch, chẳng hạn như báo cáo tài chính, gói đăng ký dịch vụ và phản hồi của khách hàng, trong cơ sở dữ liệu quan hệ. Các hệ thống OLTP liên quan đến việc tạo, cập nhật và xóa bản ghi trong bảng quan hệ.
OLAP và OLTP
OLTP rất phù hợp để xử lý và lưu trữ nhiều luồng giao dịch trong cơ sở dữ liệu. Tuy nhiên, nó không thể thực hiện các truy vấn phức tạp từ cơ sở dữ liệu. Do đó, các chuyên viên phân tích kinh doanh sử dụng một hệ thống OLAP để phân tích dữ liệu đa chiều. Ví dụ, các nhà khoa học dữ liệu kết nối cơ sở dữ liệu OLTP với một khối OLAP dựa trên nền tảng đám mây để thực hiện các truy vấn dữ liệu lịch sử thiên về điện toán.
AWS hỗ trợ OLAP như thế nào?
Cơ sở dữ liệu AWS cung cấp hàng loạt cơ sở dữ liệu đám mây được quản lý khác nhau để giúp các tổ chức lưu trữ và thực hiện các thao tác xử lý phân tích trực tuyến (OLAP). Các chuyên viên phân tích dữ liệu sử dụng cơ sở dữ liệu AWS để xây dựng cơ sở dữ liệu bảo mật phù hợp với yêu cầu của tổ chức của họ. Các tổ chức di chuyển dữ liệu kinh doanh của họ sang cơ sở dữ liệu AWS vì khả năng tiết kiệm và điều chỉnh quy mô.
- Amazon Redshift là kho dữ liệu đám mây được thiết kế đặc biệt để xử lý phân tích trực tuyến.
- Dịch vụ cơ sở dữ liệu quan hệ của Amazon (Amazon RDS) là một cơ sở dữ liệu quan hệ với chức năng OLAP. Các kỹ sư dữ liệu sử dụng Amazon RDS với Oracle OLAP để thực hiện các truy vấn phức tạp trên các khối nhiều chiều.
- Amazon Aurora là cơ sở dữ liệu quan hệ đám mây tương thích với MySQL và PostgreSQL. Nó được tối ưu hóa để chạy các khối lượng công việc OLAP phức tạp.
Bắt đầu sử dụng OLAP trên AWS bằng cách tạo tài khoản AWS ngay hôm nay.
Các bước tiếp theo để sử dụng công nghệ Xử lý phân tích trực tuyến
Bắt đầu xây dựng với AWS trên Bảng điều khiển quản lý AWS.