Tìm kiếm tài liệu là gì?
Tìm kiếm tài liệu là loại tìm kiếm hoạt động chủ yếu trên văn bản tự do phi cấu trúc (không chỉ riêng tài liệu). Cho dù bạn tìm kiếm trang web, tìm sản phẩm hay làm việc với nội dung chọn lọc, bạn đều cần sử dụng một công cụ tìm kiếm. Bạn truy cập một trang web và nhập vào hộp văn bản Tìm kiếm. Nhấp vào “tìm kiếm” và bạn sẽ nhận được (hy vọng) nhiều mục có liên quan đáp ứng mục tiêu thông tin của bạn.
Công cụ tìm kiếm đã phát triển nhờ công nghệ cơ sở dữ liệu – chúng lưu trữ dữ liệu và xử lý truy vấn dựa trên dữ liệu đó. Cơ sở dữ liệu truyền thống chủ yếu hoạt động với nội dung có cấu trúc – dữ liệu được sắp xếp thành các bảng và cột, tích hợp với lược đồ. Công việc của cơ sở dữ liệu là truy xuất tất cả hàng dữ liệu, dựa trên truy vấn khớp với giá trị trong cột. Công cụ tìm kiếm hoạt động với dữ liệu có cấu trúc (tài liệu), trong đó chứa cả siêu dữ liệu và khối văn bản phi cấu trúc kích thước lớn (văn bản tự do). Công cụ tìm kiếm sử dụng quy tắc ngôn ngữ để chia nhỏ những khối văn bản kích thước lớn này thành các thuật ngữ có thể so khớp. Ngoài ra, công cụ tìm kiếm còn tích hợp khả năng xếp hạng để sắp xếp các kết quả và đưa thông tin tốt nhất lên đầu. Trong khi cơ sở dữ liệu quan hệ và cơ sở dữ liệu NoSQL truy xuất tất cả kết quả, công cụ tìm kiếm lại truy xuất kết quả tốt nhất.
Ứng dụng của công cụ tìm kiếm được chia thành ba loại lớn: tìm kiếm tài liệu, hoạt động chủ yếu trên văn bản tự do phi cấu trúc; tìm kiếm thương mại điện tử, hoạt động trên cả dữ liệu có cấu trúc và phi cấu trúc; và giảm tải truy vấn, hoạt động chủ yếu trên dữ liệu có cấu trúc.
Tính năng tìm kiếm tài liệu có tác dụng với siêu dữ liệu không?
Trong tính năng tìm kiếm tài liệu, bạn tìm kiếm tài liệu chính có thể nhỏ như một đoạn văn bản và lớn đến hàng nghìn trang. Các tài liệu chứa nhiều trường khác nhau, bao gồm cả những trường văn bản phi cấu trúc (tiêu đề và tóm tắt), trường bán cấu trúc (tác giả) và trường có cấu trúc (ngày xuất bản, nhóm gốc, danh mục) – đó là siêu dữ liệu. Công cụ tìm kiếm xử lý tổ hợp văn bản và siêu dữ liệu trong các truy vấn của người dùng.
Những thách thức chính của tính năng tìm kiếm tài liệu là gì?
Những thách thức chính của tính năng tìm kiếm tài liệu thuộc hai lĩnh vực: chuẩn bị cũng như tải nhập dữ liệu và mức độ liên quan của tìm kiếm.
Trong các trường hợp sử dụng tính năng tìm kiếm tài liệu, phần nội dung của các tài liệu (tập ngữ liệu) xuất phát từ nội dung do người dùng tạo hoặc nội dung chưa được tuyển chọn khác. Nội dung này thường chứa các lỗi chính tả hoặc những lỗi khác, lỗi lặp lại và dữ liệu vô nghĩa. Trước khi tải dữ liệu này vào công cụ tìm kiếm, bạn cần tuyển chọn, làm sạch và chuẩn hóa dữ liệu. Sau khi chuẩn bị dữ liệu, bạn cần tải dữ liệu đó vào công cụ (bằng cách gọi các API tải nhập). Cuối cùng, bạn cần một quy trình để cập nhật các tài liệu khi có thay đổi.
Giá trị cốt lõi của tính năng tìm kiếm tài liệu là truy xuất các tài liệu liên quan tới truy vấn của người dùng, tức là mức độ liên quan của tìm kiếm. Trong quá trình truy xuất, công cụ tìm kiếm sẽ tính điểm và sắp xếp mọi tài liệu khớp thông qua một phép đo lường thống kê (BM25). BM25 sử dụng tính duy nhất của thuật ngữ tìm kiếm kết hợp với số lượng của thuật ngữ trong những tài liệu khớp. Càng nhiều lần truy vấn khớp với càng nhiều thuật ngữ duy nhất, điểm sẽ càng cao. Bạn phải điều chỉnh hàm tính điểm cho tập dữ liệu cụ thể của mình; các kỹ thuật máy học (ML) sẽ giúp bạn cải thiện xếp hạng của mình. Tìm kiếm bị giới hạn ở mức độ liên quan của tài liệu mà nó truy xuất còn bạn thì muốn thu được kết quả tốt nhất.
Những trường hợp khác sử dụng tìm kiếm là gì?
Tìm kiếm cho Thương mại điện tử
Bạn truy cập một công cụ Thương mại điện tử để tìm mua các sản phẩm từ danh mục sản phẩm có sẵn. Những sản phẩm này bao gồm nhiều trường siêu dữ liệu – kích cỡ, màu sắc, thương hiệu, v.v. – cùng với các trường dài hơn như tiêu đề, mô tả sản phẩm và các bài đánh giá. Tác vụ chính của công cụ là truy xuất các kết quả liên quan nhất để mang về doanh thu. Các nhà thiết kế trang web sử dụng nhiều công cụ để xây dựng một hàm hữu dụng về mức độ liên quan – từ các giá trị số được nhúng cho đến những mô hình ML dựa trên hành vi của người dùng.
Để cải thiện trải nghiệm người dùng cuối, các trang Thương mại điện tử thường bổ sung kỹ thuật tìm kiếm theo thuộc tính. Công cụ này cung cấp số lượng theo vùng lưu trữ cho các giá trị trong nhiều trường khác nhau (kích cỡ, màu sắc, v.v.), đồng thời, UI cung cấp cho người dùng một danh sách có thể nhấp được để họ thu hẹp kết quả.
Một số loại hình tìm kiếm cho thương mại điện tử phụ thuộc nhiều vào việc cá nhân hóa và các đề xuất. Nếu một người mua hàng tìm kiếm “váy liền thân”, công cụ tìm kiếm sẽ tìm những mẫu váy liền thân mà khách hàng có thể quan tâm mặc dù chính truy vấn đó không có giới hạn. Các chỉ số tương đồng như thuật toán k - láng giềng gần nhất (k-nearest neighbor, k-NN) giúp giải quyết vấn đề đó.
Tìm kiếm tập dữ liệu được tuyển chọn
Tìm kiếm tập dữ liệu được tuyển chọn như kho tài liệu doanh nghiệp (dữ liệu thử nghiệm lâm sàng, bản tóm tắt hồ sơ pháp lý, bất động sản, v.v.). Những quy tắc ngôn ngữ và tính năng cho từng ngôn ngữ cụ thể khác có trong các công cụ tìm kiếm giúp chúng chia nhỏ các khối dữ liệu văn bản lớn thành thuật ngữ thành phần (từ ngữ từ một trường hoặc khối dữ liệu văn bản lớn) để so khớp. Ngôn ngữ truy vấn phong phú của kiểu tìm kiếm này cho phép tìm những khối dữ liệu văn bản lớn cho các tổ hợp thuật ngữ như “váy liền thân dài không tay”. Tuy nhiên, công cụ này không truy xuất mọi kết quả khớp: cách tính điểm mức độ liên quan được sử dụng để xếp hạng và sắp xếp tài liệu và chỉ trả về những kết quả khớp nhất.
Giảm tải truy vấn
Các công cụ tìm kiếm chứa những cấu trúc dữ liệu chuyên dụng để tạo điều kiện tìm kiếm dung lượng lớn với độ trễ thấp. Điều quan trọng nhất của những cấu trúc này là chỉ mục đảo ngược đóng vai trò ánh xạ các thuật ngữ riêng lẻ vào danh sách các tài liệu chứa những thuật ngữ đó. Nhờ những cấu trúc dữ liệu này, các công cụ tìm kiếm hoạt động tốt hơn so với cơ sở dữ liệu quan hệ trong quá trình xử lý truy vấn. Đổi lại, các công cụ tìm kiếm không mang tính quan hệ. Cơ sở dữ liệu quan hệ và công cụ tìm kiếm thường được sử dụng song song. Bạn sử dụng cơ sở dữ liệu quan hệ để cung cấp dữ liệu ứng dụng, đồng thời, công cụ tìm kiếm được dùng để thực hiện tìm kiếm liên quan với độ trễ thấp trong dữ liệu đó.
Đối tượng nào xây dựng tính năng tìm kiếm tài liệu?
Quá trình xây dựng trải nghiệm tìm kiếm phong phú, hấp dẫn đòi hỏi nhiều chức năng tác vụ. Các nhà phát triển tích hợp giải pháp tìm kiếm, tạo giao diện tìm kiếm và tìm hiểu cách xây dựng cấu trúc dữ liệu để thu được kết quả tìm kiếm phù hợp nhất. Người quản lý sản phẩm đưa ra các yêu cầu về cấu trúc siêu dữ liệu và trải nghiệm người dùng trên giao diện tìm kiếm. Các nhà khoa học dữ liệu tuyển chọn dữ liệu nguồn cũng như theo dõi và làm việc với hành vi người dùng. Ban điều hành đặt ra cho công cụ các KPI kinh doanh có nhiệm vụ hướng dẫn đội ngũ sản phẩm và phát triển trong quá trình đáp ứng các mục tiêu kinh doanh.
Tương lai của tính năng tìm kiếm tài liệu là gì?
Các công cụ tìm kiếm đã được tối ưu hóa để so khớp thuật ngữ. Việc tìm kiếm “ghế sofa dài 8 foot” sẽ trả về kết quả là ghế sofa dài 8 foot và quá trình tìm kiếm được thực hiện bằng cách so khớp “8”, “foot” và “sofa”. Đây là kiểu tìm kiếm theo từ khóa. Trong nhiều trường hợp, người tìm không nắm được thuật ngữ chính xác mà họ đang tìm và muốn tìm kiếm theo ý nghĩa. Đây là kiểu tìm kiếm theo ngữ nghĩa và nắm vị trí tiên phong trong các công nghệ tìm kiếm và ML. Với tìm kiếm theo ngữ nghĩa, bạn sẽ sử dụng các truy vấn như “nơi thoải mái để ngồi bên lò sưởi” để truy xuất các mặt hàng như ghế sofa dài 8 foot.
Kiểu tìm kiếm theo ngữ nghĩa đòi hỏi kỹ thuật ML. Bạn phải xây dựng một không gian vectơ gồm các mặt hàng và truy vấn rồi sử dụng các phép tính độ tương đồng của véc-tơ để tìm các mặt hàng gần nhau trong không gian đó. Với tìm kiếm theo véc-tơ, một tài liệu không cần bất kỳ từ ngữ hay từ đồng nghĩa nào chung với truy vấn để trở nên liên quan. Ví dụ: tìm kiếm về “bảo dưỡng xe đạp” có thể khớp với tài liệu về “bôi trơn cùi đề” vì thuật toán ML nắm được “bôi trơn cùi đề” thường xuất hiện gần các thảo luận về bảo dưỡng xe đạp.
Làm thế nào để có thể cải thiện kết quả tìm kiếm?
Chìa khóa để tìm kiếm tài liệu và tìm kiếm cho thương mại điện tử hiệu quả là mức độ liên quan – kết quả tìm kiếm có đáp ứng yêu cầu của người tìm không? Các công cụ tìm kiếm cố gắng đưa những kết quả phù hợp nhất lên đầu bằng cách sử dụng nhiều kỹ thuật khác nhau. Quá trình này được gọi là xếp hạng dựa trên mức độ liên quan. Cơ sở dữ liệu trả về mọi kết quả khớp và công cụ tìm kiếm được tối ưu hóa để tính điểm các mục liên quan.
- Tìm kiếm của bạn có thể mở rộng trên nhiều trường với trọng số chênh lệch. Ví dụ: nếu tìm kiếm trong một cơ sở dữ liệu về phim, bạn nên mở rộng trên các trường như tiêu đề, đạo diễn và diễn viên và ấn định trọng số cao hơn cho kết quả khớp về tiêu đề so với kết quả khớp về diễn viên.
- Cân nhắc điều chỉnh các kết quả tìm kiếm của bạn để làm mới. Bổ sung trường ngày phát hành vào chỉ mục của bạn và hàm giảm dần theo cấp số nhân dựa trên ngày đó vào hàm tính điểm của bạn.
- Cân nhắc bổ sung các thuộc tính hoặc bộ lọc của kết quả tìm kiếm để giúp người dùng của bạn đi sâu vào các yếu tố cụ thể. Nhiều hệ thống tìm kiếm tài liệu hỗ trợ tìm kiếm theo thuộc tính cho siêu dữ liệu – thường được biểu diễn dưới dạng các hạng mục dọc theo lề trái của trang kết quả tìm kiếm.
- Cân nhắc bổ sung các từ đồng nghĩa. Từ đồng nghĩa có thể giúp người dùng cuối tìm kết quả mà họ mong muốn. Về trang phục, áo tee là áo phông hoặc áo thun. Người dùng cuối của bạn sẽ tìm thấy các kết quả giống nhau cho dù họ tìm kiếm “áo thun” hay “áo phông”. Việc bổ sung các từ đồng nghĩa có thể trả về những kết quả này.
Các khách hàng đang sử dụng tính năng tìm kiếm tài liệu như thế nào?
Tính năng tìm kiếm tài liệu xuất hiện trên nhiều ứng dụng khác nhau.
- Các trang Thương mại điện tử sử dụng tính năng tìm kiếm tài liệu để truy xuất các sản phẩm mà người dùng của họ muốn mua.
- Các trang ảnh sử dụng tính năng tìm kiếm tài liệu để tìm ảnh dựa trên siêu dữ liệu như tiêu đề và nội dung mô tả hoặc thậm chí dựa trên các véc-tơ hình ảnh khớp.
- Người dùng trong ngành pháp lý sử dụng tính năng tìm kiếm tài liệu để tìm án lệ liên quan.
- Các bác sĩ sử dụng tính năng tìm kiếm tài liệu để tìm thuốc theo bệnh trạng của bệnh nhân.
- Các giải pháp Quản lý quan hệ khách hàng (CRM) sử dụng tính năng tìm kiếm tài liệu để truy xuất các ghi chú, hoạt động tương tác và khách hàng để nhắm mục tiêu.
Khi bạn cần tìm thứ gì đó, hãy sử dụng công cụ tìm kiếm!
AWS cung cấp những sản phẩm nào để tìm kiếm tài liệu?
- Dịch vụ OpenSearch của Amazon là một bộ công cụ dành cho các nhà phát triển mong muốn xây dựng giải pháp tìm kiếm.
- Amazon Kendra là một giải pháp dùng ngay để tìm kiếm thông minh.
- Amazon CloudSearch là dịch vụ giúp tìm kiếm đơn giản.