Amazon DataZone: Tự động hóa khám phá dữ liệu

Tổng quan

Tiết kiệm thời gian nhập thủ công các thuộc tính dữ liệu trong danh mục dữ liệu, điều này cũng gây ra các lỗi tiềm ẩn. Tạo bối cảnh kinh doanh và đề xuất phân tích cho tập dữ liệu, giúp nâng cao kết quả khám phá dữ liệu. Hiểu nguồn gốc dữ liệu của bạn và hiểu nguồn nào sẽ chịu ảnh hưởng từ thay đổi. Nhiều dữ liệu phong phú hơn trong danh mục dữ liệu kinh doanh cũng cải thiện trải nghiệm tìm kiếm. Giảm thời gian tìm kiếm và sử dụng dữ liệu từ vài tuần xuống còn vài ngày.

Page Topics

Tính năng chính

Tính năng chính

Danh mục dữ liệu kinh doanh Amazon DataZone hoạt động giống một sổ đăng ký tổ chức liên kết, cho phép siêu dữ liệu kỹ thuật có thể được gửi dưới dạng tài sản, đồng thời bạn có thể thêm ngữ cảnh kinh doanh phong phú. Bạn có thể hiển thị dữ liệu với ngữ cảnh kinh doanh để tất cả người dùng của bạn có thể nhanh chóng và dễ dàng tìm kiếm, hiểu và tin tưởng dữ liệu.

Tự động thêm tên và mô tả hoạt động kinh doanh vào dữ liệu, qua đó giúp bạn dễ dàng hiểu ngữ cảnh và tránh xử lý các tên kỹ thuật khó hiểu. Tính năng tự động hóa này có sự hỗ trợ của các mô hình ngôn ngữ lớn (LLM) để tăng độ chính xác và tính nhất quán. 

Tìm kiếm theo thuộc tính hoạt động trên danh mục dữ liệu kinh doanh để giúp đối tượng dùng và đối tượng tạo dữ liệu tìm thấy tài sản dữ liệu bằng cách sử dụng thông tin cấu trúc quen thuộc, chẳng hạn như tên bảng và cột, cũng như các thuật ngữ kinh doanh.

Đối với mỗi tập dữ liệu, tạo danh sách các cột có giá trị nhất và các trường hợp sử dụng phân tích khả thi. 

Với số liệu thống kê chất lượng dữ liệu trong Amazon DataZone, người dùng dữ liệu có thể xem các chỉ số chất lượng dữ liệu từ Chất lượng dữ liệu AWS Glue hoặc hệ thống của bên thứ ba. Người dùng dữ liệu có thể tin tưởng vào các nguồn dữ liệu mà họ sử dụng để đưa ra quyết định và có được bối cảnh chất lượng dữ liệu khi họ tìm kiếm tài nguyên. Các đối tượng tạo dữ liệu và đội ngũ CNTT cũng có thể sử dụng API để kết hợp số liệu thống kê về chất lượng dữ liệu từ các hệ thống của bên thứ ba vào một cổng thông tin hợp nhất, nằm ngoài bảng điều khiển. Các đối tượng tạo dữ liệu có thể cung cấp kết quả Chất lượng dữ liệu AWS Glue theo lịch trình để đảm bảo có được điểm số ở thời điểm hiện tại, ngay cả khi dữ liệu tiếp tục thay đổi.

Hiểu được diễn biến dữ liệu theo thời gian. Dòng lịch sử dữ liệu có thể nâng cao độ tin cậy và hiểu biết về dữ liệu của một tổ chức bằng cách giúp người sử dụng dữ liệu hiểu được nguồn gốc dữ liệu, lịch sử thay đổi của dữ liệu và việc sử dụng dữ liệu. Bạn có thể giảm thời gian dành cho việc ánh xạ tài sản dữ liệu và các mối quan hệ của tài sản dữ liệu, khắc phục sự cố và phát triển quy trình, cũng như xác nhận các biện pháp quản trị dữ liệu.

Nhóm tài sản dữ liệu thành các gói xác định (sản phẩm dữ liệu) được thiết kế riêng cho các trường hợp sử dụng trong kinh doanh cụ thể để hợp lý hóa quá trình lập danh mục và cho phép đối tượng dùng dữ liệu dễ dàng khám phá và đăng ký dữ liệu. Các bên tạo dữ liệu có thể tuyển chọn một bộ sưu tập các tài sản có liên quan, thêm bối cảnh kinh doanh và xuất bản dưới dạng đơn vị sản phẩm dữ liệu. Điều này đơn giản hóa quy trình để đối tượng dùng dữ liệu xác định vị trí tất cả các tài sản dữ liệu cần thiết cho các trường hợp sử dụng cụ thể. Đối tượng dùng có thể đăng ký tất cả các tài sản trong một sản phẩm dữ liệu thông qua một quy trình phê duyệt duy nhất. Các bên tạo dữ liệu có thể quản lý vòng đời của sản phẩm, bao gồm chỉnh sửa bộ sưu tập tài sản, hủy xuất bản, xóa và duy trì đăng ký. Amazon DataZone cũng cung cấp hỗ trợ API cho quy trình làm việc sản phẩm dữ liệu, tạo điều kiện tích hợp và tự động hóa.

Trường hợp sử dụng

Giảm thời gian thu thập thông tin chuyên sâu bằng cách tìm đúng dữ liệu, trong đúng ngữ cảnh. Dữ liệu chỉ đáng tin cậy khi nó nhất quán, chính xác, đầy đủ, kịp thời, có thể truy nguyên và có điểm chất lượng dữ liệu minh bạch. Với quyền sở hữu phân tán, mỗi bộ phận hoặc đội ngũ phân tích duy trì độ chính xác của tài sản để đối tượng dùng dữ liệu biết rằng họ đang sử dụng đúng dữ liệu.

Xây dựng danh mục dữ liệu kinh doanh bằng cách tìm kéo tài sản của bạn và đưa siêu dữ liệu kỹ thuật (không phải dữ liệu thực tế) vào để làm ngữ cảnh kinh doanh thêm phong phú. Ngữ cảnh kinh doanh có thể trở nên phong phú với các bảng chú giải và thuật ngữ được chuẩn hóa. Bạn cũng có thể tùy chỉnh siêu dữ liệu bổ sung bằng các biểu mẫu siêu dữ liệu.

Sử dụng đúng dữ liệu đòi hỏi phải hiểu ngữ cảnh dữ liệu. Amazon DataZone giúp xây dựng ngữ cảnh đó cho tất cả dữ liệu được lập danh mục bằng bảng chú giải thuật ngữ và biểu mẫu siêu dữ liệu. Giờ đây, chủ sở hữu dữ liệu có thể chia sẻ càng nhiều thông tin càng tốt để thiết lập ngữ cảnh dữ liệu, giúp đối tượng dùng dữ liệu có thể tìm kiếm, hiểu và sau đó đăng ký nhận dữ liệu. Điểm chất lượng dữ liệu giúp người dùng dữ liệu biết được tài sản dữ liệu có phù hợp với mục đích hay không.

Giảm thời gian dành cho việc ánh xạ tài sản dữ liệu và các mối quan hệ của tài sản dữ liệu, khắc phục sự cố và phát triển quy trình, cũng như xác nhận các biện pháp quản trị dữ liệu. Thông qua trải nghiệm đồ họa, đối tượng dùng dữ liệu sẽ hiểu được nguồn gốc của tài sản. Đối tượng tạo dữ liệu có thể đánh giá ảnh hưởng của các thay đổi trên một bảng hoặc cột bằng cách hiểu các hệ thống hoặc đối tượng dùng dữ liệu nào sử dụng dữ liệu (phân tích tác động). Đối tượng tạo dữ liệu cũng có thể khắc phục sự cố dữ liệu bằng cách xem lại ảnh chụp nhanh dòng lịch sử của tài sản dữ liệu để phát hiện nguồn lỗi. Amazon DataZone hiển thị trực quan dòng lịch sử dữ liệu được thu thập từ các sự kiện OpenLineage, một tiêu chuẩn mở cho việc thu thập dòng lịch sử, nhưng dịch vụ này cũng có thể nắm bắt các ánh xạ dòng lịch sử tùy chỉnh. Dòng lịch sử giúp đối tượng tạo dữ liệu có thể đưa dòng lịch sử dữ liệu vào khi chia sẻ dữ liệu, điều này gia tăng độ tin cậy vào các nguồn dữ liệu.

Video

AWS re:Invent 2023 – Cách xây dựng danh mục kinh doanh thông qua Amazon DataZone (21:37)
AWS re:Invent 2023 – Hiểu dữ liệu của bạn dựa vào bối cảnh kinh doanh (55:40)

Câu hỏi thường gặp

Loại thông tin nào có trong danh mục dữ liệu kinh doanh Amazon DataZone?

Trong danh mục dữ liệu kinh doanh Amazon DataZone, siêu dữ liệu kinh doanh cung cấp thông tin do doanh nhân tạo ra hoặc sử dụng và cung cấp ngữ cảnh cho dữ liệu tổ chức. Sau đây là các loại thông tin được sử dụng:

  • Quyền sở hữu: Các tổ chức hiện đại tập trung vào dữ liệu sẽ sử dụng quy trình quản lý dữ liệu phân tán, trong đó các lĩnh vực kinh doanh (LOB) chịu trách nhiệm quản lý dữ liệu của riêng họ. Một danh mục theo dõi quyền sở hữu đó để các bên quan tâm có thể tìm kiếm và yêu cầu truy cập vào dữ liệu như một phần trong các tác vụ kinh doanh của họ.
  • Phân loại: Khám phá dữ liệu là một tác vụ quan trọng mà siêu dữ liệu kinh doanh có thể hỗ trợ. Tính năng khám phá dữ liệu sử dụng nguyên tắc bản thể và phép phân loại được xác định tập trung của công ty để phân loại các nguồn dữ liệu và giúp bạn tìm các đối tượng dữ liệu có liên quan.
  • Mối quan hệ: Bạn có thể sử dụng danh mục dữ liệu kinh doanh Amazon DataZone để thêm thông tin mối quan hệ dưới dạng siêu dữ liệu. Như với lược đồ tập dữ liệu kỹ thuật, danh mục dữ liệu kinh doanh hiển thị mối quan hệ giữa các đối tượng trong danh mục, chẳng hạn như mối quan hệ giữa cơ sở dữ liệu, tập dữ liệu và cột của chúng.
  • Lược đồ: Các đề xuất AI cho mô tả có thể sử dụng lược đồ kỹ thuật và kinh doanh để tạo các mô tả và cách sử dụng được đề xuất cho dữ liệu.
  • Nguồn gốc và mức tiêu thụ: Phân tích dòng dữ liệu và tác động cũng như ánh xạ tùy chỉnh từ OpenLineage đều được liên kết trong danh mục dữ liệu kinh doanh.

Tôi có thể lập danh mục gì với Amazon DataZone?

Amazon DataZone hỗ trợ các tài sản dữ liệu được gửi trực tiếp từ Danh mục dữ liệu AWS Glue và Amazon Redshift. Hai nguồn này có thể được dùng để lập danh mục dữ liệu ở các vị trí sau:

  • Hồ dữ liệu của Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3)
  • Nhiều cơ sở dữ liệu được xây dựng cho mục đích nhất định của AWS như Dịch vụ cơ sở dữ liệu quan hệ của Amazon (Amazon RDS) thông qua trình tìm kéo AWS Glue
  • Hơn 100 bộ kết nối Amazon AppFlow hỗ trợ mang dữ liệu từ các ứng dụng của bên thứ ba như Snowflake, Salesforce và Google Analytics