Cơ sở dữ liệu véc-tơ là gì?
Thông tin tồn tại dưới nhiều hình thức. Một số thông tin không có cấu trúc – như tài liệu văn bản, nội dung đa phương tiện phong phú và âm thanh – trong khi một số thông tin có cấu trúc – như bản ghi ứng dụng, bảng biểu và đồ thị. Những đổi mới trong trí tuệ nhân tạo và máy học (AI/ML) cho phép chúng ta tạo ra mô hình nhúng – một loại mô hình ML. Các phần nhúng mã hóa tất cả các loại dữ liệu thành véc-tơ để nắm bắt ý nghĩa và ngữ cảnh của tài liệu. Điều này cho phép chúng ta tìm tài liệu tương tự bằng cách tìm kiếm các điểm dữ liệu lân cận. Phương pháp tìm kiếm véc-tơ mang lại cho bạn trải nghiệm độc đáo như chụp ảnh bằng điện thoại thông minh và tìm kiếm hình ảnh tương tự.
Cơ sở dữ liệu véc-tơ cung cấp khả năng lưu trữ và truy xuất véc-tơ dưới dạng điểm đa chiều. Cơ sở dữ liệu véc-tơ thêm nhiều tính năng bổ sung giúp tra cứu hiệu quả và nhanh chóng các điểm lân cận gần nhất trong không gian N chiều. Thông thường, cơ sở dữ liệu véc-tơ được hỗ trợ bởi các chỉ mục lân cận k gần nhất (k-NN) và được xây dựng bằng các thuật toán như Hierarchical Navigable Small World (HNSW) và Inverted File Index (IVF). Cơ sở dữ liệu véc-tơ cung cấp nhiều tính năng bổ sung như quản lý dữ liệu, khả năng chịu lỗi cao, xác thực và kiểm soát quyền truy cập và công cụ truy vấn.
Cơ sở dữ liệu véc-tơ được sử dụng như thế nào?
Cơ sở dữ liệu véc-tơ thường được sử dụng để hỗ trợ cho các trường hợp sử dụng tìm kiếm theo véc-tơ như tìm kiếm hình ảnh trực quan, ngữ nghĩa và đa phương thức. Gần đây, chúng được kết hợp với các mô hình văn bản của trí tuệ nhân tạo (AI) tạo sinh để tạo ra các tác tử thông minh cung cấp trải nghiệm tìm kiếm có đối thoại. Chúng cũng có thể ngăn các mô hình AI tạo sinh khỏi bị nhầm lẫn, vì việc nhầm lẫn có thể khiến chatbot cung cấp các phản hồi phi thực tế nhưng đáng tin.
Quá trình phát triển bắt đầu bằng việc xây dựng một mô hình nhúng được thiết kế để mã hóa một tập ngữ liệu, ví dụ như hình ảnh sản phẩm, thành các véc-tơ. Quá trình nhập dữ liệu này còn được gọi là nạp dữ liệu vào đối tượng. Nhà phát triển ứng dụng giờ đây có thể sử dụng cơ sở dữ liệu để tìm kiếm các sản phẩm tương tự bằng cách mã hóa một hình ảnh sản phẩm và sử dụng véc-tơ để truy vấn các hình ảnh tương tự.
Trong mô hình, các chỉ mục lân cận k gần nhất (k-NN) cung cấp khả năng truy xuất véc-tơ hiệu quả và áp dụng hàm khoảng cách như cosine để xếp hạng kết quả theo mức độ tương đồng.
Tại sao cơ sở dữ liệu véc-tơ lại quan trọng?
Các nhà phát triển có thể lập chỉ mục các véc-tơ được tạo bằng các phần nhúng vào cơ sở dữ liệu véc-tơ. Điều này cho phép họ tìm các tài sản tương tự bằng cách truy vấn các véc-tơ lân cận.
Cơ sở dữ liệu véc-tơ cung cấp một phương pháp để vận hành các mô hình nhúng. Phát triển ứng dụng năng suất hơn với các tính năng cơ sở dữ liệu như quản lý tài nguyên, kiểm soát bảo mật, khả năng điều chỉnh quy mô, khả năng chịu lỗi cao và truy xuất thông tin hiệu quả thông qua các ngôn ngữ truy vấn phức tạp.
Cơ sở dữ liệu véc-tơ sau cùng sẽ hỗ trợ các nhà phát triển tạo ra trải nghiệm ứng dụng độc đáo. Ví dụ: người dùng của bạn có thể chụp ảnh bằng điện thoại thông minh để tìm kiếm các hình ảnh tương tự.
Các nhà phát triển có thể sử dụng các loại mô hình máy học khác để trích xuất siêu dữ liệu tự động từ các nội dung như hình ảnh và tài liệu được quét. Họ có thể lập chỉ mục siêu dữ liệu cùng với các véc-tơ để cho phép tìm kiếm kết hợp bằng cả từ khóa và véc-tơ. Họ cũng có thể hợp nhất kiến thức ngữ nghĩa vào xếp hạng dựa trên mức độ để cải thiện kết quả tìm kiếm.
Những đổi mới trong trí tuệ nhân tạo (AI) tạo sinh đã cho ra đời các loại mô hình mới như ChatGPT có thể tạo văn bản và quản lý các cuộc hội thoại phức tạp với con người. Một số mô hình có thể hoạt động trên nhiều phương thức; ví dụ: một số mô hình cho phép người dùng mô tả phong cảnh và tạo ra một hình ảnh phù hợp với mô tả đó.
Tuy nhiên, các mô hình tạo sinh dễ bị nhầm lẫn, có thể khiến chatbot cung cấp thông tin sai lệch cho người dùng chẳng hạn. Cơ sở dữ liệu véc-tơ có thể bổ sung cho các mô hình AI tạo sinh. Cơ sở dữ liệu véc-tơ có thể cung cấp một cơ sở kiến thức bên ngoài cho các chatbot AI tạo sinh và giúp đảm bảo rằng các chatbot đó cung cấp thông tin đáng tin cậy.
Đối tượng nào sử dụng cơ sở dữ liệu véc-tơ?
Cơ sở dữ liệu véc-tơ dành cho các nhà phát triển muốn tạo ra trải nghiệm dựa trên tìm kiếm theo véc-tơ. Nhà phát triển ứng dụng có thể sử dụng các mô hình nguồn mở, các công cụ máy học (ML) tự động và các dịch vụ mô hình cơ bản để tạo ra các phần nhúng và nạp cơ sở dữ liệu véc-tơ vào đối tượng. Điều này đòi hỏi chuyên môn về ML tối thiểu.
Một nhóm các nhà khoa học dữ liệu và kỹ sư dữ liệu có thể xây dựng các phần nhúng được điều chỉnh chuyên nghiệp và vận hành chúng thông qua cơ sở dữ liệu véc-tơ. Việc này có thể giúp họ cung cấp giải pháp trí tuệ nhân tạo (AI) nhanh hơn.
Các đội ngũ vận hành hưởng lợi từ việc quản lý các giải pháp dưới dạng khối lượng công việc cơ sở dữ liệu quen thuộc. Họ có thể sử dụng các công cụ và cẩm nang hiện có.
Cơ sở dữ liệu véc-tơ mang lại những lợi ích gì?
Cơ sở dữ liệu véc-tơ cho phép các nhà phát triển đổi mới và tạo ra những trải nghiệm độc đáo với sự hỗ trợ của tính năng tìm kiếm theo véc-tơ. Chúng có thể đẩy nhanh tốc độ phát triển ứng dụng trí tuệ nhân tạo (AI) và đơn giản hóa quá trình vận hành khối lượng công việc ứng dụng dựa trên AI.
Cơ sở dữ liệu véc-tơ cung cấp một giải pháp thay thế cho việc xây dựng trên các chỉ mục lân cận k gần nhất (k-NN) trống. Loại chỉ mục đó đòi hỏi rất nhiều chuyên môn và kỹ thuật bổ sung để sử dụng, điều chỉnh và vận hành.
Một cơ sở dữ liệu véc-tơ tốt sẽ cung cấp cho các ứng dụng một nền tảng thông qua các tính năng như quản lý dữ liệu, khả năng chịu lỗi cao, các tính năng bảo mật quan trọng và công cụ truy vấn. Các tính năng này cho phép người dùng vận hành khối lượng công việc để đơn giản hóa việc điều chỉnh quy mô, duy trì khả năng điều chỉnh quy mô linh hoạt và hỗ trợ các yêu cầu bảo mật.
Các tính năng như công cụ truy vấn và SDK giúp đơn giản hóa việc phát triển ứng dụng. Chúng cũng cho phép các nhà phát triển thực hiện các truy vấn nâng cao hơn (như tìm kiếm và lọc) trên siêu dữ liệu trong một lượt tìm kiếm k-NN. Chúng cũng đi kèm tùy chọn sử dụng mô hình tính điểm mức độ liên quan kết hợp, trong đó các mô hình tần suất thuật ngữ truyền thống như BM25 được kết hợp với điểm số véc-tơ để tăng cường quá trình truy xuất thông tin.
AWS có thể hỗ trợ các yêu cầu về cơ sở dữ liệu véc-tơ của bạn như thế nào?
Amazon Web Services (AWS) cung cấp nhiều dịch vụ cho các yêu cầu về cơ sở dữ liệu véc-tơ của bạn:
- Dịch vụ OpenSearch của Amazon giúp bạn dễ dàng thực hiện phân tích bản ghi tương tác, giám sát ứng dụng theo thời gian thực, tìm kiếm trên trang web, v.v. Đối với cơ sở dữ liệu véc-tơ, bạn có thể đọc về tìm kiếm Lân cận k gần nhất (k-NN) trong Dịch vụ OpenSearch.
- Phiên bản Amazon Aurora tương thích với PostgreSQL và Dịch vụ cơ sở dữ liệu quan hệ của Amazon (Amazon RDS) dành cho PostgreSQL hỗ trợ phần mở rộng pgvector để lưu trữ các phần nhúng từ các mô hình máy học (ML) trong cơ sở dữ liệu của bạn và thực hiện các tìm kiếm tương tự hiệu quả.
- Amazon Neptune ML là một tính năng mới của Neptune sử dụng Mạng nơ-ron đồ thị (GNN), một kỹ thuật ML được xây dựng chuyên dụng cho đồ thị, nhằm đưa ra các dự đoán dễ dàng, nhanh chóng và chính xác hơn bằng cách sử dụng dữ liệu đồ thị.
- Chức năng tìm kiếm theo véc-tơ dành cho Amazon MemoryDB hỗ trợ lưu trữ hàng triệu véc-tơ, với thời gian truy vấn và phản hồi cập nhật chỉ vài mili giây và số lượng hàng chục nghìn truy vấn mỗi giây (QPS) cùng tỷ lệ thu hồi cao hơn 99%.
- Amazon DocumentDB (với khả năng tương thích MongoDB) hỗ trợ tìm kiếm theo véc-tơ, một chức năng mới cho phép bạn lưu trữ, lập chỉ mục và tìm kiếm hàng triệu véc-tơ với thời gian phản hồi chỉ vài mili giây. Với chức năng tìm kiếm theo véc-tơ dành cho Amazon DocumentDB, bạn có thể dễ dàng thiết lập, vận hành và điều chỉnh quy mô cơ sở dữ liệu cho các ứng dụng ML của mình.
Bắt đầu sử dụng cơ sở dữ liệu véc-tơ trên AWS bằng cách tạo tài khoản ngay hôm nay.
Những thách thức của cơ sở dữ liệu véc-tơ là gì?
Cơ sở dữ liệu véc-tơ gặp phải nhiều thách thức tương tự mà các công nghệ cơ sở dữ liệu khác phải đối mặt. Cơ sở dữ liệu véc-tơ cần nỗ lực không ngừng để cải thiện khả năng điều chỉnh quy mô, độ chính xác ước lượng, hiệu năng độ trễ và tính kinh tế.
Là một công nghệ tương đối non trẻ, nhiều cơ sở dữ liệu véc-tơ cần phải hoàn thiện các năng lực cơ sở dữ liệu cốt lõi như bảo mật, khả năng phục hồi, hỗ trợ vận hành và đa dạng hóa hỗ trợ khối lượng công việc. Điều này rất quan trọng khi các ứng dụng trí tuệ nhân tạo (AI) hoàn thiện và yêu cầu nhiều hơn là chỉ tìm kiếm theo véc-tơ.