RNN là gì?

Mạng nơ-ron hồi quy (RNN) là một mô hình học sâu được đào tạo để xử lý và chuyển đổi đầu vào dữ liệu tuần tự thành đầu ra dữ liệu tuần tự cụ thể. Dữ liệu tuần tự là dữ liệu, chẳng hạn như từ, câu hoặc dữ liệu chuỗi thời gian, trong đó các thành phần tuần tự tương quan với nhau dựa trên ngữ nghĩa phức tạp và quy tắc cú pháp. RNN là một hệ thống phần mềm gồm nhiều thành phần được kết nối với nhau theo cách con người thực hiện chuyển đổi dữ liệu tuần tự, chẳng hạn như dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác. Phần lớn RNN đang được thay thế bằng trí tuệ nhân tạo (AI) dựa trên công cụ biến đổi và các mô hình ngôn ngữ lớn (LLM), hiệu quả hơn nhiều trong việc xử lý dữ liệu tuần tự.

Tìm hiểu về mạng nơ-ron

Tìm hiểu về học sâu

Tìm hiểu về công cụ biến đổi trong trí tuệ nhân tạo

Tìm hiểu về các mô hình ngôn ngữ lớn

Mạng nơ-ron hồi quy hoạt động như thế nào?

Hình ảnh sau đây cho thấy sơ đồ của một RNN.

RNN được tạo thành từ các nơ-ron: các nút xử lý dữ liệu kết hợp cùng nhau để thực hiện các tác vụ phức tạp. Các nơ-ron được tổ chức dưới dạng lớp đầu vào, đầu ra và ẩn. Lớp đầu vào nhận thông tin để xử lý và lớp đầu ra cung cấp kết quả. Quá trình xử lý dữ liệu, phân tích và dự đoán diễn ra trong lớp ẩn. 

Lớp ẩn

RNN hoạt động bằng cách lần lượt truyền dữ liệu tuần tự nhận được đến các lớp ẩn. Tuy nhiên, RNN cũng có quy trình làm việc tự lặp lại hay hồi quy: lớp ẩn có thể ghi nhớ và sử dụng các đầu vào trước đó cho các dự đoán trong tương lai trong một thành phần bộ nhớ ngắn hạn. Quy trình này sử dụng đầu vào hiện tại và bộ nhớ đã lưu trữ để dự đoán chuỗi tiếp theo. 

Ví dụ: hãy xem xét chuỗi: Apple is red (Táo màu đỏ). Bạn muốn RNN dự đoán red (màu đỏ) khi nhận được chuỗi đầu vào Apple is (Táo màu). Khi xử lý từ Apple (Táo), lớp ẩn sẽ lưu trữ một bản sao trong bộ nhớ. Tiếp theo, khi thấy từ is (màu), lớp ẩn gọi lại Apple (Táo) từ bộ nhớ của mình và hiểu toàn bộ chuỗi: Apple is (Táo màu) là ngữ cảnh. Sau đó, lớp ẩn có thể dự đoán red (màu đỏ) để cải thiện độ chính xác. Do đó, RNN trở nên hữu ích trong nhận dạng giọng nói, dịch máy và các tác vụ lập mô hình ngôn ngữ khác.

Tìm hiểu về dịch máy

Đào tạo

Các kỹ sư máy học (ML) đào tạo các mạng nơ-ron sâu như RNN bằng cách cung cấp dữ liệu đào tạo cho mô hình và tinh chỉnh hiệu năng của mô hình. Trong ML, trọng số của nơ-ron là tín hiệu để xác định mức độ ảnh hưởng của thông tin đã học trong quá trình đào tạo khi dự đoán đầu ra. Mỗi lớp trong RNN đều có trọng số bằng nhau. 

Các kỹ sư ML điều chỉnh trọng số để dự đoán chính xác hơn. Họ sử dụng một kỹ thuật gọi là truyền ngược qua thời gian (BPTT) để tính lỗi mô hình và điều chỉnh trọng số của mô hình cho phù hợp. BPTT khôi phục đầu ra về bước thời gian trước và tính lại tỷ lệ lỗi. Qua đó, kỹ thuật này có thể xác định trạng thái ẩn nào trong chuỗi đang gây ra lỗi đáng kể và điều chỉnh lại trọng số để giảm biên lỗi.

Tìm hiểu về công nghệ máy học

Mạng nơ-ron hồi quy có những loại nào?

RNN thường có đặc trưng là kiến trúc một-một: một chuỗi đầu vào được liên kết với một đầu ra. Tuy nhiên, bạn có thể điều chỉnh linh hoạt thành các cấu hình khác nhau cho các mục đích cụ thể. Sau đây là một số loại RNN phổ biến.

Một-nhiều

Loại RNN này dẫn một đầu vào đến một số đầu ra. Loại này tạo điều kiện cho các ứng dụng ngôn ngữ như chú thích hình ảnh bằng cách tạo một câu từ một từ khóa duy nhất.

Nhiều-nhiều

Mô hình sử dụng nhiều đầu vào để dự đoán nhiều đầu ra. Ví dụ: bạn có thể tạo một công cụ dịch ngôn ngữ bằng RNN, với khả năng phân tích câu và cấu trúc chính xác các từ trong một ngôn ngữ khác. 

Nhiều-một

Một số đầu vào được ánh xạ đến một đầu ra. Loại này rất hữu ích trong các ứng dụng như phân tích cảm xúc, trong đó mô hình dự đoán cảm xúc của khách hàng như tích cực, tiêu cựctrung lập từ lời chứng thực đầu vào.

So sánh mạng nơ-ron hồi quy với các mạng học sâu khác?

RNN là một trong vài kiến trúc mạng nơ-ron khác nhau.

Mạng nơ-ron hồi quy so với mạng nơ-ron truyền thẳng

Giống như RNN, mạng nơ-ron truyền thẳng là mạng nơ-ron nhân tạo truyền thông tin từ đầu này sang đầu kia của kiến trúc. Mạng nơ-ron truyền thẳng có thể thực hiện các nhiệm vụ phân loại, hồi quy hoặc nhận dạng đơn giản nhưng không thể nhớ đầu vào trước đó đã được mạng xử lý. Ví dụ: mạng này quên Apple (Táo) vào thời điểm nơ-ron của mạng xử lý từ is (là). RNN khắc phục được hạn chế bộ nhớ này bằng cách đưa trạng thái bộ nhớ ẩn vào nơ-ron.

Mạng nơ-ron hồi quy so với mạng nơ-ron tích chập

Mạng nơ-ron tích chập là mạng nơ-ron nhân tạo được thiết kế để xử lý dữ liệu chuỗi thời gian. Bạn có thể sử dụng mạng nơ-ron tích chập để trích xuất thông tin không gian từ video và hình ảnh bằng cách truyền thông tin đó qua một loạt các lớp tích chập và tổng hợp trong mạng nơ-ron. RNN được thiết kế để ghi lại các phần phụ thuộc lâu dài trong dữ liệu tuần tự

Kiến trúc mạng nơ-ron hồi quy có những biến thể nào?

Kiến trúc RNN đặt nền tảng cho các mô hình ML có khả năng xử lý ngôn ngữ. Một số biến thể đã xuất hiện dùng chung nguyên tắc lưu giữ bộ nhớ với RNN và cải thiện chức năng ban đầu của RNN. Sau đây là một số ví dụ.

Mạng nơ-ron hồi quy hai chiều

Mạng nơ-ron hồi quy hai chiều (BRNN) xử lý các chuỗi dữ liệu với các lớp tiến và lùi của các nút ẩn. Lớp tiến hoạt động tương tự như RNN, lưu trữ đầu vào trước đó ở trạng thái ẩn và sử dụng đầu vào đó để dự đoán đầu ra tiếp theo. Trong khi đó, lớp lùi hoạt động theo hướng ngược lại bằng cách lấy cả đầu vào hiện tại và trạng thái ẩn trong tương lai để cập nhật trạng thái ẩn hiện tại. Kết hợp cả hai lớp cho phép BRNN cải thiện độ chính xác của dự đoán bằng cách xem xét bối cảnh trong quá khứ và tương lai. Ví dụ: bạn có thể sử dụng BRNN để dự đoán từ trees (cây) trong câu Apple trees are tall (Các cây táo đều cao). 

Bộ nhớ dài-ngắn hạn

Bộ nhớ dài-ngắn hạn (LSTM) là một biến thể RNN cho phép mô hình mở rộng dung lượng bộ nhớ để phù hợp với dòng thời gian dài hơn. RNN chỉ có thể nhớ đầu vào vừa qua tức thì. Nhưng RNN không thể sử dụng đầu vào từ một số chuỗi trước đó để cải thiện dự đoán. 

Hãy xem xét các câu sau: Tom is a cat (Tom là một con mèo). Tom’s favorite food is fish (Món yêu thích của Tom là cá). Khi bạn đang sử dụng RNN, mô hình không thể nhớ rằng Tom là một con mèo. Mô hình có thể tạo ra nhiều loại thực phẩm khác nhau khi dự đoán từ cuối cùng. Các mạng LSTM thêm một khối bộ nhớ đặc biệt gọi là các ô trong lớp ẩn. Mỗi ô được điều khiển bởi cổng đầu vào, cổng đầu ra và cổng quên, cho phép lớp ghi nhớ thông tin hữu ích. Ví dụ: ô nhớ các từ Tomcat (mèo), cho phép mô hình dự đoán từ fish (cá). 

Các đơn vị hồi quy có cổng

Đơn vị hồi quy có cổng (GRU) là một RNN cho phép lưu giữ bộ nhớ có chọn lọc. Mô hình thêm một bản cập nhật và quên cổng vào lớp ẩn của mô hình, điều này có thể lưu trữ hoặc xóa thông tin trong bộ nhớ. 

Mạng nơ-ron hồi quy có những hạn chế nào?

Kể từ khi RNN được đưa vào sử dụng, các kỹ sư ML đã đạt được tiến bộ đáng kể trong các ứng dụng xử lý ngôn ngữ tự nhiên (NLP) bằng RNN cùng các biến thể. Tuy nhiên, bộ mô hình RNN có một số hạn chế.

Tìm hiểu về xử lý ngôn ngữ tự nhiên

Độ dốc cực lớn

RNN có thể dự đoán sai đầu ra trong khóa đào tạo ban đầu. Bạn cần lặp lại nhiều lần để điều chỉnh các thông số của mô hình nhằm giảm tỷ lệ lỗi. Bạn có thể mô tả độ nhạy của tỷ lệ lỗi tương ứng với thông số của mô hình dưới dạng độ dốc. Bạn có thể hình dung độ dốc như một đường dốc mà bạn đi xuống từ một ngọn đồi. Độ dốc lớn hơn cho phép mô hình học nhanh hơn và độ dốc nhỏ làm giảm tốc độ học tập.

Độ dốc cực lớn xuất hiện khi độ dốc tăng theo cấp số nhân cho đến khi RNN trở nên không ổn định. Khi độ dốc trở nên lớn vô hạn, RNN hoạt động thất thường, dẫn đến các vấn đề về hiệu năng như quá khớp. Quá khớp là hiện tượng mô hình có thể dự đoán chính xác với dữ liệu đào tạo nhưng không thể dự đoán chính xác với dữ liệu thực tế. 

Độ dốc biến mất

Bài toán độ dốc biến mất là một điều kiện, trong đó độ dốc của mô hình đạt đến 0 trong quá trình đào tạo. Khi độ dốc biến mất, RNN không học hiệu quả từ dữ liệu đào tạo, dẫn đến chưa khớp. Mô hình chưa khớp không thể hoạt động tốt trong các ứng dụng thực tế vì các trọng số chưa được điều chỉnh thích hợp. RNN sẽ có rủi ro gặp phải vấn đề độ dốc cực lớn và biến mất khi xử lý các chuỗi dữ liệu dài. 

Thời gian đào tạo chậm

RNN xử lý dữ liệu tuần tự, do đó hạn chế khả năng xử lý khối lượng lớn văn bản một cách hiệu quả. Ví dụ: mô hình RNN có thể phân tích cảm xúc của người mua từ một vài câu. Tuy nhiên, mô hình này yêu cầu phải có năng lực điện toán cực lớn, không gian bộ nhớ và thời gian để tóm tắt một trang của một bài luận. 

Bộ chuyển đổi khắc phục những hạn chế của mạng nơ-ron hồi quy như thế nào?

Bộ chuyển đổi là các mô hình học sâu sử dụng các cơ chế tự chú ý trong mạng nơ-ron truyền thẳng bộ mã hóa-giải mã. Bộ chuyển đổi có thể xử lý dữ liệu tuần tự theo cách giống như RNN. 

Tự chú ý

Bộ chuyển đổi không sử dụng trạng thái ẩn để ghi lại các phần phụ thuộc lẫn nhau của chuỗi dữ liệu. Thay vào đó, họ sử dụng đầu tự chú ý để xử lý song song các chuỗi dữ liệu. Điều này cho phép bộ chuyển đổi đào tạo và xử lý các chuỗi dài hơn trong thời gian ngắn hơn so với RNN. Với cơ chế tự chú ý, bộ chuyển đổi khắc phục được những hạn chế về bộ nhớ và các phần phụ thuộc lẫn nhau của chuỗi mà RNN gặp phải. Bộ chuyển đổi có thể xử lý song song các chuỗi dữ liệu và sử dụng mã hóa vị trí để ghi nhớ cách mỗi đầu vào liên hệ với các đầu vào khác. 

Tính song song

Bộ chuyển đổi giải quyết các vấn đề về độ dốc mà RNN gặp phải bằng cách cho phép tính song song trong quá trình đào tạo. Nhờ xử lý đồng thời tất cả các chuỗi đầu vào nên bộ chuyển đổi không gặp phải những hạn chế truyền ngược vì các độ dốc có thể tự do di chuyển đến tất cả các trọng số. Độ dốc cũng được tối ưu hóa cho điện toán song song, do các đơn vị xử lý đồ họa (GPU) cung cấp để phát triển AI tạo sinh. Tính song song cho phép bộ chuyển đổi điều chỉnh quy mô cực kỳ lớn và xử lý các tác vụ NLP phức tạp bằng cách xây dựng các mô hình lớn hơn. 

AWS có thể hỗ trợ các yêu cầu về RNN của bạn như thế nào?

AI tạo sinh trên Amazon Web Services (AWS) cung cấp các dịch vụ, công cụ và tài nguyên mà bạn có thể sử dụng để xây dựng, quản lý và điều chỉnh quy mô cho các ứng dụng AI thông thường bằng công nghệ tiên tiến dựa trên bộ chuyển đổi. Ví dụ:

  • Amazon SageMaker là một dịch vụ được quản lý toàn phần để chuẩn bị dữ liệu và xây dựng, đào tạo và triển khai các mô hình ML cho bất kỳ trường hợp sử dụng nào. Dịch vụ này có cơ sở hạ tầng, công cụ và quy trình làm việc được quản lý toàn phần.
  • Amazon Bedrock đơn giản hóa việc phát triển AI tạo sinh bằng cách cho phép tùy chỉnh và triển khai các mô hình nền tảng (FM) hàng đầu trong ngành một cách an toàn và hiệu quả.
  • AWS Trainium là trình tăng tốc ML mà bạn có thể sử dụng để đào tạo và điều chỉnh quy mô của các mô hình học sâu trên đám mây với giá cả phải chăng. 

Bắt đầu sử dụng AI tạo sinh trên AWS bằng cách đăng ký tài khoản ngay hôm nay.

Các bước tiếp theo trên AWS

Tham khảo các tài nguyên bổ sung liên quan đến sản phẩm
Tăng tốc độ đổi mới với các dịch vụ AI tạo sinh của AWS 
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS.

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng trong AWS Management Console.

Đăng nhập