Dữ liệu tổng hợp là gì?

Dữ liệu tổng hợp là dữ liệu không phải do con người tạo ra bắt chước dữ liệu trong thế giới thực. Dữ liệu này được tạo ra bởi các thuật toán và phép mô phỏng điện toán dựa trên các công nghệ trí tuệ nhân tạo tạo sinh. Một tập dữ liệu tổng hợp có các thuộc tính toán học giống như dữ liệu thực tế dùng làm cơ sở, nhưng không chứa bất kỳ thông tin nào giống dữ liệu thực tế. Các tổ chức sử dụng dữ liệu tổng hợp cho mục đích nghiên cứu, thử nghiệm, phát triển mới và nghiên cứu máy học. Những cải tiến gần đây về AI đã giúp việc tạo dữ liệu tổng hợp trở nên hiệu quả và nhanh chóng, nhưng cũng làm tăng tầm quan trọng của vấn đề này trong các mối lo ngại về quản lý dữ liệu.

Dữ liệu tổng hợp mang lại lợi ích gì?

Dữ liệu tổng hợp mang lại một số lợi ích cho các tổ chức. Sau đây là một vài lợi ích trong số đó.

Tạo dữ liệu không giới hạn

Bạn có thể tạo dữ liệu tổng hợp theo yêu cầu và ở quy mô gần như không giới hạn. Các công cụ tạo dữ liệu tổng hợp là một cách hiệu quả về chi phí để có được nhiều dữ liệu hơn. Các công cụ đó cũng có thể gắn nhãn trước (phân loại hoặc đánh dấu) dữ liệu mà chúng tạo ra cho các trường hợp sử dụng máy học. Bạn có quyền truy cập vào dữ liệu có cấu trúc và được gắn nhãn mà không cần trải qua quá trình chuyển đổi dữ liệu thô từ đầu. Bạn cũng có thể thêm dữ liệu tổng hợp vào tổng số dữ liệu mà bạn có, mang lại nhiều dữ liệu đào tạo hơn để phân tích.

Bảo vệ quyền riêng tư

Các lĩnh vực như chăm sóc sức khỏe, tài chính và pháp lý có nhiều quy định về quyền riêng tư, bản quyền và tuân thủ để bảo vệ dữ liệu nhạy cảm. Tuy nhiên, họ phải sử dụng dữ liệu để phân tích và nghiên cứu — thường phải thuê ngoài dữ liệu cho bên thứ ba để sử dụng ở mức tối đa. Thay vì dữ liệu cá nhân, họ có thể sử dụng dữ liệu tổng hợp để phục vụ cùng một mục đích giống như các tập dữ liệu riêng tư này. Họ tạo ra dữ liệu tương tự hiển thị cùng một thông tin có liên quan về mặt thống kê mà không để lộ dữ liệu riêng tư hoặc nhạy cảm. Hãy xem xét nghiên cứu y học tạo dữ liệu tổng hợp từ tập dữ liệu trong thời gian thực – dữ liệu tổng hợp duy trì tỷ lệ đặc điểm sinh học và dấu hiệu di truyền giống như tập dữ liệu ban đầu, nhưng tất cả tên, địa chỉ và thông tin cá nhân khác của bệnh nhân đều là giả.

Giảm thiên lệch

Bạn có thể sử dụng dữ liệu tổng hợp để giảm sai lệch trong các mô hình đào tạo AI. Vì các mô hình lớn thường đào tạo trên dữ liệu có sẵn công khai, nên có thể có sự thiên lệch trong văn bản. Các nhà nghiên cứu có thể sử dụng dữ liệu tổng hợp để cung cấp sự tương phản với bất kỳ ngôn ngữ hoặc thông tin thiên lệch nào mà các mô hình AI thu thập. Ví dụ: nếu một số nội dung dựa trên ý kiến nhất định ủng hộ một nhóm cụ thể, bạn có thể tạo dữ liệu tổng hợp để cân bằng tập dữ liệu tổng thể.

Dữ liệu tổng hợp có những loại nào?

Có hai loại dữ liệu tổng hợp chính – một phần và hoàn toàn.

Dữ liệu tổng hợp một phần

Dữ liệu tổng hợp một phần thay thế một phần nhỏ của tập dữ liệu thực bằng thông tin tổng hợp. Bạn có thể sử dụng dữ liệu đó để bảo vệ các phần nhạy cảm của tập dữ liệu. Ví dụ: nếu cần phân tích dữ liệu cụ thể của khách hàng, bạn có thể tổng hợp các thuộc tính như tên, thông tin liên hệ và thông tin thực tế khác mà từ đó ai đó có thể theo dõi ngược lại một người cụ thể.  

Dữ liệu tổng hợp hoàn toàn

Dữ liệu tổng hợp hoàn toàn là nơi bạn hoàn toàn tạo ra dữ liệu mới. Một tập dữ liệu tổng hợp hoàn toàn sẽ không chứa bất kỳ dữ liệu thực tế nào. Tuy nhiên, dữ liệu đó sẽ sử dụng các mối quan hệ, phân phối đồ thị và các thuộc tính thống kê giống như dữ liệu thực. Mặc dù dữ liệu này không đến từ dữ liệu được ghi lại thực tế, nhưng nó cho phép bạn đưa ra kết luận tương tự.

Bạn có thể sử dụng dữ liệu tổng hợp hoàn toàn khi thử nghiệm các mô hình máy học. Dữ liệu này rất hữu ích khi bạn muốn kiểm tra hoặc tạo các mô hình mới nhưng không có đủ dữ liệu đào tạo trong thế giới thực để cải thiện độ chính xác ML.

Dữ liệu tổng hợp được tạo ra như thế nào?

Hoạt động tạo dữ liệu tổng hợp liên quan đến việc sử dụng các phương pháp tính toán và mô phỏng để tạo dữ liệu. Kết quả bắt chước các thuộc tính thống kê của dữ liệu trong thế giới thực, nhưng không chứa các quan sát thực tế trong thế giới thực. Dữ liệu được tạo ra có thể có nhiều dạng khác nhau, bao gồm văn bản, số, bảng hoặc các loại phức tạp hơn như hình ảnh và video. Có 3 cách tiếp cận chính để tạo dữ liệu tổng hợp, mỗi cách cung cấp các mức độ chính xác và loại dữ liệu khác nhau. 

Phân phối thống kê

Trong cách tiếp cận này, trước tiên dữ liệu thực được phân tích để xác định các phân phối thống kê cơ bản của nó, chẳng hạn như phân phối bình thường, theo cấp số nhân hay chi bình phương. Sau đó, các nhà khoa học dữ liệu tạo ra các mẫu tổng hợp từ các phân phối đã xác định này để tạo ra một tập dữ liệu giống về mặt thống kê với bản gốc.

Dựa trên mô hình 

Trong cách tiếp cận này, một mô hình máy học được đào tạo để hiểu và sao chép các đặc điểm của dữ liệu thực. Sau khi được đào tạo, mô hình có thể tạo ra dữ liệu nhân tạo tuân theo sự phân phối thống kê giống như dữ liệu thực. Cách tiếp cận này đặc biệt hữu ích để tạo ra các tập dữ liệu lai, kết hợp các thuộc tính thống kê của dữ liệu thực với các yếu tố tổng hợp bổ sung.

Phương pháp học sâu

Có thể sử dụng các kỹ thuật tiên tiến như Mạng đối nghịch tạo sinh (GAN), bộ mã hóa tự động biến đổi (VAE) và các kỹ thuật khác để tạo dữ liệu tổng hợp. Các phương pháp này thường được sử dụng cho các loại dữ liệu phức tạp hơn — như hình ảnh hoặc dữ liệu chuỗi thời gian — và có thể tạo ra các tập dữ liệu tổng hợp chất lượng cao.
 

Có những công nghệ tạo dữ liệu tổng hợp nào?

Sau đây là thông tin tóm lược về một số công nghệ tiên tiến mà bạn có thể sử dụng để tạo dữ liệu tổng hợp.

Mạng đối nghịch tạo sinh

Các mô hình mạng đối nghịch tạo sinh (GAN) sử dụng 2 mạng nơ-ron hoạt động cùng nhau để tạo và phân loại dữ liệu mới. Một mạng sử dụng dữ liệu thô để tạo ra dữ liệu tổng hợp trong khi mạng thứ hai đánh giá, mô tả đặc điểm và phân loại thông tin đó. Cả hai mạng cạnh tranh với nhau cho đến khi mạng đánh giá không còn có thể phân biệt giữa dữ liệu tổng hợp và dữ liệu gốc. 

Bạn có thể sử dụng GAN để tạo dữ liệu được tạo ra theo cách nhân tạo có tính tự nhiên cao và trình bày chặt chẽ các biến thể của dữ liệu trong thế giới thực, như video và hình ảnh trông như thật.

Tìm hiểu về mạng đối nghịch tạo sinh (GAN) »

Bộ mã hóa tự động biến đổi 

Bộ mã hóa tự động biến đổi (VAE) là các thuật toán tạo ra dữ liệu mới dựa trên các phép biểu diễn dữ liệu gốc. Thuật toán không giám sát học cách phân phối dữ liệu thô, sau đó sử dụng kiến trúc bộ mã hóa-giải mã để tạo dữ liệu mới thông qua chuyển đổi kép. Bộ mã hóa nén dữ liệu đầu vào thành một phép biểu diễn có chiều thấp hơn, còn bộ giải mã tái tạo dữ liệu mới từ phép biểu diễn ẩn này. Mô hình sử dụng các phép tính xác suất để quá trình tái tạo diễn ra trơn tru.

VAE hữu ích nhất khi tạo dữ liệu tổng hợp rất tương đồng với các biến thể. Ví dụ: bạn có thể sử dụng VAE khi tạo hình ảnh mới. 

Mô hình dựa trên bộ chuyển hóa

Các mô hình dựa trên Bộ chuyển đổi tạo sinh được hướng dẫn trước (GPT) sử dụng các tập dữ liệu gốc lớn để hiểu cấu trúc và sự phân phối điển hình của dữ liệu. Bạn chủ yếu sử dụng chúng trong quá trình xử lý ngôn ngữ tự nhiên (NLP). Ví dụ: nếu một mô hình văn bản dựa trên bộ chuyển đổi được đào tạo trên một tập dữ liệu lớn của văn bản tiếng Anh, nó sẽ học cấu trúc, ngữ pháp và thậm chí cả các sắc thái của ngôn ngữ. Khi tạo dữ liệu tổng hợp, mô hình bắt đầu với văn bản hạt giống (hoặc lời nhắc) và dự đoán từ tiếp theo dựa trên xác suất mà nó đã học, nhờ đó tạo thành một chuỗi hoàn chỉnh.

Tìm hiểu về GPT »

Hoạt động tạo dữ liệu tổng hợp gặp phải những thách thức nào?

Có một số thách thức khi tạo dữ liệu tổng hợp. Dưới đây là một số hạn chế và thách thức chung mà bạn có thể sẽ gặp phải với dữ liệu tổng hợp.

Kiểm soát chất lượng

Chất lượng dữ liệu là yếu tố vô cùng quan trọng trong thống kê và phân tích. Trước khi kết hợp dữ liệu tổng hợp vào các mô hình học tập, bạn phải kiểm tra xem dữ liệu đó có chính xác và có đạt mức chất lượng dữ liệu tối thiểu hay không. Tuy nhiên, việc đảm bảo rằng không ai có thể truy tìm các điểm dữ liệu tổng hợp ở thông tin thực có thể đòi hỏi phải giảm độ chính xác. Sự đánh đổi về quyền riêng tư và độ chính xác có thể ảnh hưởng đến chất lượng.

Bạn có thể tiến hành kiểm tra thủ công dữ liệu tổng hợp trước khi sử dụng, bằng cách đó có thể giúp khắc phục vấn đề này. Tuy nhiên, việc kiểm tra thủ công có thể mất thời gian nếu bạn cần tạo ra nhiều dữ liệu tổng hợp.

Thách thức kỹ thuật

Tạo dữ liệu tổng hợp là một việc khó khăn — bạn phải hiểu các kỹ thuật, quy tắc và phương pháp hiện tại để đảm bảo tính chính xác và tính hữu dụng của dữ liệu. Bạn cần có chuyên môn cao trong lĩnh vực này trước khi tạo ra bất kỳ dữ liệu tổng hợp hữu ích nào.

Cho dù bạn có trình độ chuyên môn cao đến đâu thì việc tạo ra dữ liệu tổng hợp để bắt chước hoàn hảo dữ liệu trong thế giới thực vẫn là một thách thức. Ví dụ: dữ liệu trong thế giới thực thường bao gồm các điểm dị biệt và điểm bất thường mà các thuật toán tạo dữ liệu tổng hợp hiếm khi có thể tạo lại.

Sự nhầm lẫn của các bên liên quan

Mặc dù dữ liệu tổng hợp là một công cụ bổ sung hữu ích, nhưng không phải tất cả các bên liên quan đều có thể hiểu được tầm quan trọng của nó. Xét theo khía cạnh một công nghệ mới hơn, một số người dùng doanh nghiệp có thể không chấp nhận phân tích dữ liệu tổng hợp là hoạt động có liên quan đến thế giới thực. Mặt khác, những người khác có thể quá chú trọng tới kết quả do khía cạnh được kiểm soát của hoạt động tạo. Hãy thông báo về các giới hạn của công nghệ này và kết quả của nó cho các bên liên quan, đảm bảo rằng họ hiểu cả lợi ích và nhược điểm.

AWS có thể hỗ trợ các nỗ lực tạo dữ liệu tổng hợp của bạn như thế nào?

Amazon SageMaker là một dịch vụ được quản lý toàn phần dùng để chuẩn bị dữ liệu cũng như xây dựng, đào tạo và triển khai các mô hình máy học (ML). Các mô hình này phù hợp với bất kỳ trường hợp sử dụng nào, với cơ sở hạ tầng, công cụ và quy trình công việc được quản lý đầy đủ. SageMaker cung cấp 2 tùy chọn cho phép bạn gắn nhãn dữ liệu thô — chẳng hạn như hình ảnh, tệp văn bản và video — và tạo dữ liệu tổng hợp được gắn nhãn để tạo các tập dữ liệu chất lượng cao nhằm đào tạo các mô hình ML.

  • Amazon SageMaker Ground Truth là một dịch vụ tự phục vụ giúp dễ dàng gắn nhãn dữ liệu. Dịch vụ này cung cấp cho bạn tùy chọn sử dụng chú thích của con người thông qua Amazon Mechanical Turk, các nhà cung cấp bên thứ ba hoặc lực lượng lao động tư nhân của riêng bạn.
  • Amazon SageMaker Ground Truth Plus là một dịch vụ được quản lý đầy đủ cho phép bạn tạo các tập dữ liệu đào tạo chất lượng cao. Bạn không cần phải tự mình xây dựng các ứng dụng gắn nhãn hoặc quản lý lực lượng lao động gắn nhãn.

Đầu tiên, bạn chỉ định yêu cầu hình ảnh tổng hợp của mình hoặc cung cấp tài nguyên 3D và hình ảnh cơ sở, chẳng hạn như hình ảnh thiết kế có sự hỗ trợ của máy tính (CAD). Sau đó, các nghệ sĩ kỹ thuật số AWS tạo hình ảnh từ đầu hoặc sử dụng các tài nguyên do khách hàng cung cấp. Các hình ảnh được tạo bắt chước tư thế và vị trí của đối tượng, bao gồm các biến thể của đối tượng hoặc cảnh và có thể thêm các thành phần cụ thể nếu muốn — chẳng hạn như vết trầy xước, vết lõm và các thay đổi khác. Điều này giúp loại bỏ quá trình thu thập dữ liệu tốn thời gian hoặc sự cần thiết phải làm hỏng các bộ phận để có được hình ảnh. Bạn có thể tạo ra hàng trăm ngàn hình ảnh tổng hợp được gắn nhãn tự động với độ chính xác cao.

Hãy tạo tài khoản miễn phí ngay hôm nay để bắt đầu tạo dữ liệu tổng hợp trên AWS.

Các bước tiếp theo trên AWS

Tham khảo các tài nguyên bổ sung liên quan đến sản phẩm
Đổi mới nhanh hơn với bộ dịch vụ AI toàn diện nhất 
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS.

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng trong AWS Management Console.

Đăng nhập