Chuẩn bị dữ liệu là gì?
Chuẩn bị dữ liệu là quá trình chuẩn bị dữ liệu thô sao cho phù hợp để xử lý và phân tích thêm. Những bước chính bao gồm thu thập, làm sạch và ghi nhãn dữ liệu thô thành dạng thức phù hợp với các thuật toán máy học (ML), sau đó khám phá và trực quan hóa dữ liệu. Quá trình chuẩn bị dữ liệu có thể chiếm tới 80% thời gian dành cho một dự án ML. Để tối ưu hóa quá trình này, bạn cần sử dụng các công cụ chuẩn bị dữ liệu chuyên dụng.
Giữa ML và chuẩn bị dữ liệu có mối liên hệ gì?
Các luồng dữ liệu luân chuyển giữa các tổ chức với mức độ chưa từng có, chúng đến từ mọi thứ từ điện thoại thông minh cho tới thành phố thông minh, dưới cả hai dạng dữ liệu có cấu trúc và phi cấu trúc (hình ảnh, tài liệu, dữ liệu không gian địa lý, v.v.). Dữ liệu phi cấu trúc chiếm 80% lượng dữ liệu ngày nay. ML không chỉ có thể phân tích dữ liệu có cấu trúc, mà còn khám phá các mẫu trong dữ liệu phi cấu trúc. ML là quá trình một máy tính học cách diễn giải dữ liệu và đưa ra các quyết định cũng như đề xuất dựa trên những dữ liệu đó. Các dữ liệu không chính xác, chứa thành kiến hoặc không hoàn chỉnh có thể dẫn đến các dự đoán thiếu chính xác trong quá trình học hỏi¬—và sau đó khi được sử dụng để đưa ra các dự đoán.
Vì sao chuẩn bị dữ liệu lại quan trọng đối với ML?
Dữ liệu là “nhiên liệu” của ML. Việc khai thác các dữ liệu này để làm mới doanh nghiệp của bạn, mặc dù khó khăn, là điều bắt buộc để doanh nghiệp luôn hợp thời cả trong hiện tại và tương lai. Chỉ những ai nắm được nhiều thông tin nhất mới chiến thắng trong cuộc chơi, và những người biết đưa dữ liệu của họ vào công việc để đưa ra các quyết định đúng đắn hơn, sáng suốt hơn, mới có thể phản ứng nhanh hơn với những bất ngờ và khám phá ra các cơ hội mới. Quá trình này, dù tẻ nhạt nhưng rất quan trọng, là một điều kiện tiên quyết để xây dựng các mô hình ML và phân tích chính xác. Đây cũng là khâu mất nhiều thời gian nhất trong một dự án ML. Các nhà khoa học dữ liệu có thể sử dụng các công cụ để giúp tự động hóa quá trình chuẩn bị dữ liệu theo nhiều cách khác nhau để giảm thiểu thời gian cần đầu tư cho công đoạn này.
Bạn có thể chuẩn bị dữ liệu của mình như thế nào?
Quá trình chuẩn bị dữ liệu diễn ra trong nhiều bước, bắt đầu với việc thu thập dữ liệu thích hợp, sau đó là làm sạch, ghi nhãn rồi tiếp đến là xác thực và trực quan hóa.
Thu thập dữ liệu
Thu thập dữ liệu là quá trình tập hợp tất cả các dữ liệu mà bạn cần cho ML. Thu thập dữ liệu có thể là công việc tẻ nhạt vì dữ liệu nằm trong nhiều nguồn dữ liệu, gồm có trong máy tính xách tay, kho dữ liệu, đám mây, bên trong các ứng dụng và trên các thiết bị. Việc tìm cách để kết nối với các nguồn dữ liệu khác nhau có thể là một thử thách. Khối lượng dữ liệu cũng tăng theo cấp số nhân, vì vậy sẽ phải tìm kiếm trong rất nhiều dữ liệu. Thêm vào đó, dữ liệu có rất nhiều định dạng và loại khác nhau tùy thuộc vào nguồn dữ liệu. Ví dụ: dữ liệu video và dữ liệu dạng bảng rất khó để sử dụng cùng nhau.
Làm sạch dữ liệu
Làm sạch dữ liệu để sửa lỗi và bổ sung dữ liệu còn thiếu, đây là một bước để đảm bảo chất lượng dữ liệu. Sau khi đã làm sạch dữ liệu, bạn sẽ cần chuyển dữ liệu sang một định dạng thống nhất và có thể đọc được. Quá trình này có thể bao gồm việc thay đổi các định dạng trường như ngày tháng và tiền tệ, sửa đổi các quy ước đặt tên và chỉnh sửa giá trị cũng như đơn vị đo lường, để tất cả các dữ liệu này trở nên thống nhất.
Ghi nhãn dữ liệu
Ghi nhãn dữ liệu là quá trình xác định dữ liệu thô (hình ảnh, tệp văn bản, video, v.v.) và thêm một hoặc nhiều nhãn có nghĩa và chứa thông tin hữu ích để cung cấp ngữ cảnh để cho mô hình ML có thể học hỏi từ đó. Ví dụ: nhãn có thể cho biết ảnh chụp con chim hay ô tô, những từ nào được phát ra trong bản ghi âm hoặc liệu ảnh chụp X quang có điều gì bất thường hay không. Bắt buộc cần ghi nhãn dữ liệu trong nhiều trường hợp sử dụng, như thị giác máy tính, xử lý ngôn ngữ tự nhiên và nhận diện giọng nói.
Xác thực và trực quan hóa
Sau khi làm sạch và ghi nhãn dữ liệu, các đội ngũ ML thường khám phá dữ liệu để đảm bảo dữ liệu đã chính xác và đã sẵn sàng sử dụng cho ML. Các công cụ trực quan như biểu đồ tần suất, biểu đồ phân tán, biểu đồ dạng hộp, biểu đồ đường thẳng và biểu đồ cột đều rất hữu ích để xác minh rằng dữ liệu chính xác. Thêm vào đó, việc trực quan hóa cũng giúp các đội ngũ khoa học dữ liệu hoàn thành việc phân tích dữ liệu thăm dò. Quá trình này sử dụng công cụ trực quan hóa để khám phá các mẫu, phát hiện điểm bất thường, thử nghiệm một giả thuyết hoặc kiểm tra các giả định. Việc phân tích dữ liệu thăm dò không yêu cầu tạo mô hình chính thức; thay vào đó, các đội ngũ khoa học dữ liệu có thể sử dụng công cụ trực quan hóa để giải mã dữ liệu.
AWS có thể trợ giúp như thế nào?
Các công cụ chuẩn bị dữ liệu Amazon SageMaker giúp các tổ chức có được thông tin chuyên sâu từ cả hai loại dữ liệu có cấu trúc và dữ liệu phi cấu trúc. Ví dụ: bạn có thể sử dụng Amazon SageMaker Data Wrangler để đơn giản hóa việc chuẩn bị dữ liệu có cấu trúc, với các công cụ trực quan hóa dữ liệu tích hợp, thông qua giao diện trực quan không cần mã. SageMaker Data Wrangler bao gồm hơn 300 phép chuyển đổi dữ liệu tích hợp, vì vậy bạn có thể chuẩn hóa, chuyển đổi và kết hợp các tính năng một cách nhanh chóng mà không cần viết bất cứ đoạn mã nào. Bạn cũng có thể sử dụng các phép chuyển đổi tùy chỉnh của mình trong Python hoặc Apache Spark nếu muốn. Đối với dữ liệu phi cấu trúc, bạn cần tập dữ liệu chất lượng cao và được ghi nhãn. Nhờ Amazon SageMaker Ground Truth Plus, bạn có thể xây dựng tập dữ liệu đào tạo ML chất lượng cao, đồng thời giảm đến 40% chi phí ghi nhãn dữ liệu, mà không cần phải xây dựng các ứng dụng ghi nhãn hoặc tổ chức một lực lượng lao động ghi nhãn của riêng bạn.
Đối với những chuyên viên phân tích hoặc người dùng kinh doanh muốn chuẩn bị dữ liệu ở trong một quyển sổ tay, chỉ với vài cú nhấp chuột là bạn có thể duyệt tìm, khám phá và kết nối trực quan với các môi trường xử lý dữ liệu Spark chạy trên Amazon EMR từ các sổ tay Studio Amazon SageMaker của bạn. Khi đã được kết nối, bạn có thể tương tác để truy vấn, khám phá và trực quan hóa dữ liệu, đồng thời chạy các tác vụ Spark sử dụng ngôn ngữ bạn chọn (SQL, Python hoặc Scala) để xây dựng các luồng công việc chuẩn bị dữ liệu và ML hoàn chỉnh.