Mô hình nền tảng là gì?
Được đào tạo trên tập dữ liệu khổng lồ, mô hình nền tảng (FM) là mạng nơ-ron học sâu lớn đã thay đổi cách các nhà khoa học dữ liệu tiếp cận máy học (ML). Thay vì phát triển trí tuệ nhân tạo (AI) từ đầu, các nhà khoa học dữ liệu sử dụng một mô hình nền tảng làm điểm khởi đầu để phát triển các mô hình ML hỗ trợ cho các ứng dụng mới một cách nhanh chóng và tiết kiệm chi phí hơn. Thuật ngữ mô hình nền tảng được các nhà nghiên cứu đặt ra để mô tả các mô hình ML được đào tạo trên chuỗi dữ liệu tổng quát và không gắn nhãn, cùng với đó là khả năng thực hiện nhiều tác vụ chung khác nhau như hiểu ngôn ngữ, tạo văn bản và hình ảnh cũng như trò chuyện bằng ngôn ngữ tự nhiên.
Điểm độc đáo về mô hình nền tảng là gì?
Một tính năng độc đáo của các mô hình nền tảng là khả năng thích ứng của chúng. Các mô hình này có thể thực hiện một loạt các tác vụ hoàn toàn khác biệt với độ chính xác cao dựa trên lời nhắc đầu vào. Một số tác vụ bao gồm xử lý ngôn ngữ tự nhiên (NLP), trả lời câu hỏi và phân loại hình ảnh. Kích thước và bản chất đa dụng của FM tạo nên sự khác biệt giữa chúng với các mô hình ML truyền thống, vốn thường thực hiện các tác vụ cụ thể như phân tích văn bản để tìm ra cảm xúc, phân loại hình ảnh và dự báo xu hướng.
Bạn có thể sử dụng các mô hình nền tảng làm mô hình cơ sở để phát triển các ứng dụng hạ nguồn chuyên biệt hơn. Những mô hình này là thành quả từ công lao suốt hơn một thập kỷ, trong đó các mô hình gia tăng về kích thước và độ phức tạp.
Ví dụ: BERT, một trong những mô hình nền tảng hai chiều đầu tiên, được phát hành vào năm 2018. Mô hình này được đào tạo bằng cách sử dụng 340 triệu tham số và một tập dữ liệu đào tạo có dung lượng 16 GB. Năm 2023, chỉ 5 năm sau, OpenAI đã đào tạo GPT-4 với 170 nghìn tỷ tham số và tập dữ liệu đào tạo có dung lượng 45 GB. Theo OpenAI, năng lực điện toán cần thiết cho mô hình nền tảng đã tăng gấp đôi sau mỗi 3,4 tháng kể từ năm 2012. Các FM ngày nay, chẳng hạn như các mô hình ngôn ngữ lớn (LLM) Claude 2 và Llama 2, cùng mô hình chuyển văn bản thành hình ảnh Stable Diffusion của Stability AI có thể thực hiện một loạt các tác vụ sáng tạo ở nhiều lĩnh vực, ví dụ như viết bài đăng trên blog, tạo ra hình ảnh, giải quyết các vấn đề toán học, tham gia vào cuộc hội thoại và trả lời các câu hỏi dựa trên một tài liệu.
Tại sao lập mô hình nền tảng lại quan trọng?
Các mô hình nền tảng có khả năng thay đổi đáng kể vòng đời máy học. Mặc dù hiện tại việc phát triển một mô hình nền tảng từ đầu sẽ tiêu tốn hàng triệu đô la, nhưng chúng sẽ rất có ích về lâu dài. Bằng việc sử dụng các FM được đào tạo trước, các nhà khoa học dữ liệu sẽ phát triển các ứng dụng ML mới nhanh hơn và rẻ hơn thay vì đào tạo các mô hình ML độc đáo ngay từ đầu.
Một cách sử dụng tiềm năng là tự động hóa các tác vụ và quy trình, đặc biệt là những tác vụ đòi hỏi khả năng suy luận. Dưới đây là một vài ứng dụng cho các mô hình nền tảng:
- Hỗ trợ khách hàng
- Biên dịch ngôn ngữ
- Tạo nội dung
- Viết quảng cáo
- Phân loại hình ảnh
- Tạo và chỉnh sửa hình ảnh có độ phân giải cao
- Trích xuất tài liệu
- Khoa học robot
- Chăm sóc sức khỏe
- Phương tiện tự hành
Mô hình nền tảng có thể làm gì?
Mặc dù được đào tạo trước, các mô hình nền tảng có thể tiếp tục học hỏi từ đầu vào dữ liệu hoặc lời nhắc trong quá trình suy luận. Điều này có nghĩa là bạn có thể phát triển đầu ra toàn diện thông qua các lời nhắc được tuyển chọn kỹ lưỡng. Tác vụ mà các FM có thể thực hiện bao gồm xử lý ngôn ngữ, nắm bắt hình ảnh, tạo mã và tương tác tập trung vào con người.
Xử lý ngôn ngữ
Điểm đáng chú ý ở các mô hình này là khả năng trả lời các câu hỏi có ngôn ngữ tự nhiên và thậm chí khả năng viết các kịch bản ngắn hoặc bài viết ngắn theo yêu cầu của lời nhắc. Chúng còn có thể dịch các ngôn ngữ bằng công nghệ NLP.
Nắm bắt hình ảnh
FM vượt trội trong việc sử dụng thị giác máy tính, đặc biệt là tác vụ liên quan đến việc xác định hình ảnh và các đối tượng vật lý. Những tính năng này có thể được đưa vào các ứng dụng như lái xe tự động và khoa học robot. Một tính năng khác là tạo ra hình ảnh từ văn bản đầu vào, cũng như chỉnh sửa ảnh và video.
Tạo mã
Các mô hình nền tảng có thể tạo mã máy tính bằng nhiều ngôn ngữ lập trình khác nhau dựa trên đầu vào ngôn ngữ tự nhiên. FM cũng có thể được sử dụng để đánh giá và gỡ lỗi mã.
Tương tác tập trung vào con người
Các mô hình AI tạo sinh sử dụng đầu vào của con người để tìm hiểu và cải thiện các dự đoán. Một ứng dụng quan trọng nhưng đôi khi bị bỏ qua là các mô hình này có khả năng hỗ trợ con người đưa ra quyết định. Các ứng dụng tiềm năng bao gồm chẩn đoán lâm sàng, hệ thống hỗ trợ ra quyết định và phân tích.
Một tính năng khác là phát triển các ứng dụng AI mới bằng cách tinh chỉnh các mô hình nền tảng hiện có.
Giọng nói sang văn bản
Vì các FM hiểu ngôn ngữ, chúng có thể được sử dụng cho các tác vụ chuyển giọng nói thành văn bản như chép lời và ghi phụ đề video bằng nhiều ngôn ngữ khác nhau.
Mô hình nền tảng hoạt động như thế nào?
Mô hình nền tảng là một dạng trí tuệ nhân tạo tạo sinh (AI tạo sinh). Chúng tạo ra đầu ra từ một hoặc nhiều đầu vào (lời nhắc) dưới dạng hướng dẫn bằng ngôn ngữ của con người. Các mô hình dựa trên các mạng nơ-ron phức tạp bao gồm mạng đối nghịch tạo sinh (GAN), bộ chuyển hóa và bộ mã hóa biến thiên.
Mặc dù mỗi loại mạng hoạt động khác nhau, nhưng các nguyên tắc hoạt động của chúng đều tương tự nhau. Nhìn chung, FM sử dụng các mẫu và mối quan hệ đã học được để dự đoán mục tiếp theo trong một chuỗi. Ví dụ: với việc tạo hình ảnh, mô hình sẽ phân tích hình ảnh và tạo ra một phiên bản sắc nét và rõ ràng hơn của hình ảnh đó. Tương tự, với văn bản, mô hình dự đoán từ tiếp theo trong một chuỗi văn bản dựa trên các từ trước đó và ngữ cảnh của văn bản. Sau đó, mô hình chọn từ tiếp theo bằng cách sử dụng các kỹ thuật phân phối xác suất.
Các mô hình nền tảng sử dụng phương pháp học tự giám sát để tạo nhãn từ dữ liệu đầu vào. Điều này có nghĩa là không một ai hướng dẫn hoặc đào tạo mô hình bằng các tập dữ liệu đào tạo được gắn nhãn. Điểm đặc trưng này giúp LLM tách biệt khỏi các kiến trúc ML trước đó vốn sử dụng học có giám sát hoặc học không có giám sát.
Một vài ví dụ về mô hình nền tảng?
Số lượng và kích thước của các mô hình nền tảng trên thị trường đã tăng nhanh chóng. Hiện nay có sẵn hàng chục mô hình nền tảng. Dưới đây là danh sách các mô hình nền tảng nổi bật được phát hành từ năm 2018.
BERT
Được phát hành vào năm 2018, Biểu diễn thể hiện mã hóa hai chiều từ bộ chuyển hóa (BERT) là một trong những mô hình nền tảng đầu tiên. BERT là một mô hình hai chiều phân tích ngữ cảnh của một chuỗi hoàn chỉnh sau đó đưa ra dự đoán. Mô hình này được đào tạo trên một kho văn bản thuần túy và Wikipedia bằng cách sử dụng 3,3 tỷ token (từ) và 340 triệu tham số. BERT có thể trả lời các câu hỏi, dự đoán câu và dịch văn bản.
GPT
Mô hình Bộ chuyển hóa tạo sinh được đào tạo trước (GPT) được OpenAI phát triển vào năm 2018. Mô hình này sử dụng bộ giải mã chuyển hóa 12 lớp với cơ chế tự tập trung. Mô hình này được đào tạo dựa trên tập dữ liệu BookCorpus với hơn 11.000 cuốn tiểu thuyết miễn phí. Một tính năng đáng chú ý của GPT-1 là khả năng học bằng dữ liệu mới.
GPT-2 được phát hành vào năm 2019. OpenAI đã đào tạo mô hình này bằng cách sử dụng 1,5 tỷ tham số (so với 117 triệu tham số được sử dụng ở GPT-1). GPT-3 có mạng nơ-ron 96 lớp và 175 tỷ tham số và được đào tạo bằng cách sử dụng tập dữ liệu Common Crawl chứa 500 tỷ từ. Chatbot nổi tiếng của ChatGPT được phát triển dựa trên GPT-3.5. Và GPT-4, phiên bản mới nhất, ra mắt vào cuối năm 2022 và đã vượt qua Kỳ thi luật thống nhất với số điểm 297 (76%).
Amazon Titan
Các FM của Amazon Titan được đào tạo trước dựa trên các tập dữ liệu lớn, giúp chúng trở thành các mô hình đa dụng mạnh mẽ. Các mô hình đó có thể được sử dụng nguyên trạng hoặc tùy chỉnh riêng theo dữ liệu cụ thể của công ty cho một tác vụ cụ thể mà không cần phải chú thích cho khối lượng lớn dữ liệu. Ban đầu, Titan sẽ cung cấp hai mô hình. Đầu tiên là LLM tạo sinh dành cho các tác vụ như tóm tắt, tạo văn bản, phân loại, hỏi đáp kết thúc mở và trích xuất thông tin. Thứ hai là LLM nhúng dành cho việc dịch đầu vào ở dạng văn bản, bao gồm các từ, cụm từ và các đơn vị văn bản lớn thành các phần biểu diễn bằng số (được gọi là phần nhúng) có chứa ý nghĩa ngữ nghĩa của văn bản. Dù không tạo ra văn bản, LLM này rất hữu ích cho các ứng dụng như cá nhân hóa và tìm kiếm vì nhờ khả năng so sánh các phần nhúng, mô hình này sẽ tạo ra các phản hồi liên quan và phù hợp với ngữ cảnh hơn so với việc so khớp từ. Để tiếp tục hỗ trợ các phương pháp tốt nhất trong việc sử dụng AI có trách nhiệm, các FM của Titan được xây dựng để phát hiện và xóa nội dung có hại trong dữ liệu, từ chối nội dung không phù hợp ở bước nhập dữ liệu đầu vào của người dùng và lọc kết quả đầu ra của mô hình có chứa nội dung không phù hợp như phát ngôn gây thù hận, nội dung tục tĩu và bạo lực.
Jurassic của AI21
Được phát hành vào năm 2021, Jurassic-1 là một mô hình ngôn ngữ tự động hồi quy 76 lớp với 178 tỷ tham số. Jurassic-1 tạo ra văn bản giống con người và giải quyết các tác vụ phức tạp. Hiệu năng của mô hình này tương đương với GPT-3.
Vào tháng 3 năm 2023, AI21 Labs đã phát hành Jurrassic-2 với khả năng tuân theo hướng dẫn và khả năng ngôn ngữ được cải thiện.
Claude
Claude 3.5 Sonnet
Mô hình thông minh và tiên tiến nhất của Anthropic, Claude 3.5 Sonnet, thể hiện khả năng vượt trội trong một loạt các nhiệm vụ đa dạng và kết quả đánh giá, đồng thời vượt trội hơn Claude 3 Opus.
Claude 3 Opus
Opus là một mô hình có độ thông minh cao với hiệu suất đáng tin cậy đối với các nhiệm vụ phức tạp. Mô hình có khả năng điều hướng các lời nhắc kết thúc mở và các tình huống không nhìn thấy trước với độ thành thạo đáng chú ý và hiểu biết như con người. Sử dụng Opus để tự động hóa các nhiệm vụ, cũng như đẩy nhanh quá trình nghiên cứu và phát triển trong nhiều trường hợp sử dụng và ngành đa dạng.
Claude 3 Haiku
Haiku là mô hình nhanh nhất, nhỏ gọn nhất của Anthropic mang lại khả năng phản hồi gần như tức thời. Haiku là lựa chọn tốt nhất cho trải nghiệm xây dựng AI liền mạch để mô phỏng các tương tác của con người. Doanh nghiệp có thể sử dụng Haiku để kiểm duyệt nội dung, tối ưu hóa quản lý hàng tồn kho, tạo ra bản dịch nhanh chóng và chính xác, tóm tắt dữ liệu phi cấu trúc, v.v.
Cohere
Cohere có hai LLM: một là mô hình tạo sinh với khả năng tương tự như GPT-3 và mô hình còn lại là mô hình biểu diễn dành cho việc hiểu ngôn ngữ. Dù Cohere chỉ có 52 tỷ tham số, mô hình này vẫn vượt trội hơn GPT-3 ở nhiều khía cạnh.
Stable Diffusion
Stable Diffusion là một mô hình chuyển văn bản thành hình ảnh có thể tạo ra hình ảnh chân thực với độ phân giải cao. Stable Diffusion được phát hành vào năm 2022 và có một mô hình khuếch tán sử dụng các công nghệ tạo nhiễu và khử nhiễu để học cách tạo ra hình ảnh.
Mô hình này nhỏ hơn so với các công nghệ khuếch tán cạnh tranh như DALL-E 2, tức là mô hình này không cần một cơ sở hạ tầng điện toán rộng lớn. Stable Diffusion có thể chạy trên card đồ họa thông thường hoặc thậm chí trên điện thoại thông minh sử dụng nền tảng Snapdragon Gen2.
Xem thêm về Stable Diffusion »
BLOOM
BLOOM là một mô hình đa ngôn ngữ với kiến trúc tương tự như GPT-3. Mô hình này được phát triển vào năm 2022 và là kết quả hợp tác của hơn một nghìn nhà khoa học và đội ngũ Hugging Space. Mô hình này có 176 tỷ tham số và được đào tạo trong ba tháng rưỡi bằng cách sử dụng 384 GPU Nvidia A100. Mặc dù các điểm kiểm tra của BLOOM cần đến 330 GB dung lượng lưu trữ, nhưng mô hình này có thể chạy trên PC độc lập với chỉ 16 GB RAM. BLOOM có thể tạo văn bản bằng 46 ngôn ngữ và viết mã bằng 13 ngôn ngữ lập trình.
Hugging Face
Hugging Face là một nền tảng cung cấp các công cụ nguồn mở để bạn xây dựng và triển khai các mô hình máy học. Nền tảng này hoạt động như một trung tâm cộng đồng, nơi các nhà phát triển có thể chia sẻ và khám phá các mô hình và tập dữ liệu. Các cá nhân có thể đăng ký thành viên miễn phí, nhưng việc đăng ký trả phí sẽ mang đến mức độ truy cập cao hơn. Bạn có quyền truy cập công khai vào gần 200.000 mô hình và 30.000 tập dữ liệu.
Có những thách thức nào với mô hình nền tảng?
Các mô hình nền tảng có thể phản hồi một cách mạch lạc với các lời nhắc về các chủ đề mà chúng chưa được đào tạo rõ ràng. Nhưng chúng có các điểm yếu nhất định. Dưới đây là một số thách thức mà các mô hình nền tảng phải đối mặt:
- Yêu cầu về cơ sở hạ tầng. Việc xây dựng một mô hình nền tảng từ đầu rất tốn kém, đòi hỏi lượng tài nguyên khổng lồ và việc đào tạo có thể mất nhiều tháng.
- Phát triển front-end. Đối với các ứng dụng thực tế, các nhà phát triển cần tích hợp các mô hình nền tảng vào một ngăn xếp phần mềm, bao gồm các công cụ phục vụ cho việc tổ chức lời nhắc, tinh chỉnh và tổ chức quy trình.
- Thiểu khả năng đọc hiểu. Dù có thể cung cấp các câu trả lời đúng ngữ pháp và đúng với thực tế, nhưng các mô hình nền tảng vẫn gặp khó khăn trong việc hiểu ngữ cảnh của lời nhắc. Đồng thời, các mô hình nền tảng không có nhận thức về mặt xã hội hay tâm lý.
- Câu trả lời không đáng tin cậy. Câu trả lời cho các câu hỏi về các chủ đề nhất định có thể không đáng tin cậy và đôi khi không phù hợp, độc hại hoặc không chính xác.
- Thành kiến. Thành kiến là khả năng dễ nhận thấy vì các mô hình có thể học theo phát ngôn gây thù hận và giọng điệu không phù hợp từ tập dữ liệu đào tạo. Để tránh điều này, các nhà phát triển nên lọc dữ liệu đào tạo và mã hóa các chuẩn mực cụ thể vào mô hình của họ một cách cẩn thận.
AWS có thể trợ giúp như thế nào?
Amazon Bedrock là cách dễ nhất để xây dựng và điều chỉnh quy mô các ứng dụng AI tạo sinh bằng các mô hình nền tảng. Amazon Bedrock là một dịch vụ được quản lý toàn phần có khả năng tạo ra mô hình nền tảng từ Amazon và các công ty khởi nghiệp AI hàng đầu thông qua API, vì vậy bạn có thể chọn từ nhiều FM khác nhau để tìm ra mô hình phù hợp nhất cho trường hợp sử dụng của mình. Với Bedrock, bạn có thể tăng tốc độ phát triển và triển khai các ứng dụng AI tạo sinh có quy mô linh hoạt, đáng tin cậy và an toàn mà không cần phải quản lý cơ sở hạ tầng.
Amazon SageMaker JumpStart là một trung tâm ML cung cấp các mô hình, thuật toán và giải pháp, mang đến cho bạn hàng trăm mô hình nền tảng, bao gồm các mô hình nền tảng có hiệu năng hàng đầu và được cung cấp công khai. Các mô hình nền tảng mới tiếp tục được bổ sung, bao gồm Llama 2, Falcon và Stable Diffusion XL 1.0.