生成式人工智能（GenAI）新世界：過去、現在和未來

人類善於分析事物。但是現在看來，機器很有可能做得更好。機器可以不知疲倦夜以繼日地分析數據，不斷從中找到很多人類場景用例的模式：信用卡欺詐預警、垃圾郵件檢測，股票價格預測、以及個性化地推薦商品和視頻等等。他們在這些任務上變得越來越聰明了。這被稱為 “分析人工智能（Analytical AI）” 或”傳統人工智能（Traditional AI）”。但是人類不僅擅長分析事物，還善於創造。我們寫詩、設計產品、製作遊戲和編寫代碼。直到公元 2022 年之前，機器還沒有機會在創造性工作中與人類競爭，它們只能從事分析和死記硬背的認知勞動。但是現在（是的，就是現在）機器已經開始在創造感性而美好事物的領域嘗試超越人類，這個新類別被稱為 “生成式人工智能（GenAI）”。這意味著機器學習已經開始在創造生成全新的事物，而不是分析已經存在的舊事物。生成式人工智能（GenAI）不僅會變得更快、更便宜，而且在某些情況下比人類手工創造的更好。每個需要人類創作原創作品的行業—從社交媒體到遊戲、從廣告到建築、從編碼到平面設計、從產品設計到法律、從營銷到銷售都有待全新重塑。某些功能可能會被生成式人工智能（GenAI）完全取代，或者激發出超越人類想像力的全新靈感。

Transformer 新世界做為一名曾經多次穿越過市場週期的從業者，我親歷過通信行業、IT 行業、移動互聯網行業等不同時代的周期，親身體驗過其間的潮起雲湧，親眼目睹過其中的天高雲淡，以及最終慘烈競爭後的回歸平淡。因此，面對已經開啟的 AI 時代周期，與其盲目地跳進去跟隨，不如先搞清楚這個新周期的一些底層邏輯，比如說：知識底座。如果說 TCP/IP、HTML 等知識結構是上一個時代的知識底座，那麼面對已經開始的生成式人工智能（GenAI）時代，我們每個人是否應該先問自己一個問題：“什麼是生成式人工智能（GenAI）時代的知識底座？” 從到目前為止 AI 的知識發展看來，也許這個知識底座會是：Transformer。

什麼是生成式人工智能（GenAI）

1 Transformer 概述

歡迎進入 Transformer 的新世界。在過去的五年中，人工智能(AI)世界發生了很多令人欣喜的重大變化。其中許多變化是由一篇名為 “Attention is All You Need” 的論文推動的。這篇發表於2017年的論文介紹了一種名為 “Transformer” 的新架構。下圖為“Attention is All You Need” 的論文中描述的 Transformer 模型的架構圖示。

https://arxiv.org/pdf/1706.03762.pdf?trk=cndc-detail

概括來說，Transformer 模型為機器學習領域做出了兩項貢獻。首先，它提高了在人工智能中使用並行計算的效率。其次，它引入了 “注意力（Attention）” 的概念，這使人工智能能夠理解單詞之間的關係。你所聽到的生成式人工智能（GenAI）技術，例如 GPT-3、BERT、Sable Diffusion 等，都是 Transformer 架構在不同領域演進的結果。

2 注意力機制（Attention）

什麼是注意力機制？根據該論文中的描述，注意力函數可以描述為將查詢和一組鍵值對映射到輸出，其中查詢、鍵、值和輸出都是向量。輸出是按值的加權總和計算的，其中分配給每個值的權重由查詢的兼容性函數與相應鍵值計算得出。 Transformer 使用多頭注意力（multi-headed attention），這是對稱為縮放點積注意力（scaled dot-product attention）的特定注意力函數的並行計算。如下圖所示。

Source: https://arxiv.org/pdf/1706.03762.pdf?trk=cndc-detail

上面這段對“注意力機制”的描述還是偏學術化。維基百科上的定義會更通俗易懂些：“注意力機制（英語：attention）是人工神經網絡中一種模仿認知注意力的技術。這種機制可以增強神經網絡輸入數據中某些部分的權重，同時減弱其他部分的權重，以此將網絡的關注點聚焦於數據中最重要的一小部分。數據中哪些部分比其他部分更重要取決於上下文。可以通過梯度下降法對注意力機制進行機器學習訓練 ……”

可見，注意力機制的靈活性來自於它的“軟權重”特性，即這種權重是可以在運行時改變的，而非像通常的權重一樣必須在運行時保持固定。

3 Transformer in Chip

很多人工智能領域的思想領袖和專家，認為 Transformer 架構在未來五年左右並不會有太大變化。這就是為什麼你會看到一些芯片製造商在其新芯片（例如 NVIDIA H100）中集成 Transformer Engine 的原因。

在 2022 年拉斯維加斯的 re:Invent 2022 中，來自 NVIDIA 的架構師分享瞭如何在AWS上，使用 NVIDIA 新一代芯片做深度機器學習學習訓練的專題，裡面特別提到了 H100 芯片中 Transformer Engine 的設計結構和初衷。對技術架構細節感興趣的同學，可以通過以下視頻深入了解：https://www.youtube.com/watch?v=l8AFfaCkp0E?trk=cndc-detail

4 Transformer 演進時間線

演進時間線一個有趣的視角是將各種 Transformer 按照出現的時間順序排列的圖示。

models: an introduction and catalog” https://arxiv.org/abs/2302.07730?trk=cndc-detail

我聽到過的一個比較有趣的視角是：如果您之前對 Transformer 知道得不多，不要恐慌。因為您看到引領這一波生成式人工智能（GenAI）變革的重要幾篇論文的情況：

CLIP 論文在 2021 年發表；
Stable Diffusion 和 DALL-E-2 在 2022 年才出現；
GPT3.5、ChatGPT、Bloom 等在 2022 年底才出現……

這個新世界的演進才剛剛開始，你還有足夠的時間重新開始學習 Transformer！

生成式人工智能（GenAI）

1 為什麼現在發生?

生成式人工智能（GenAI）與更廣泛的人工智能具有相同的值得人類深入思考問題：“為什麼現在發生？” 概括來說，這個答案是我們當下具有：

更好的模型；
更多的數據；
更多的計算；

生成式人工智能（GenAI）的進化速度比我們所能想像的要快得多，為了將當前時刻置於大時代洪流的背景之下，非常值得我們大致地了解下 AI 的發展歷史和曾經走過的路。

第一波浪潮：小型模型占據了至高無上的地位（2015 年之前）

小型模型在理解語言方面被認為是 “最先進的”。這些小型模型擅長分析任務，可用於從交貨時間預測到欺詐分類等工作。但是，對於一般用途的生成任務，它們的表現力還不夠。生成人類級寫作或代碼仍然是白日夢。

第二波浪潮：規模競賽（2015 年至今）

2017 年發表的里程碑意義的論文（“Attention is All You Need”）描述了一種用於自然語言理解的新神經網絡架構，這種架構名為 Transformer，它可以生成高質量的語言模型，同時更具可並行性，並且需要更少的訓練時間。這些模型是 few-shot learners 的，因此可以相對容易地針對特定領域進行定制。

隨著模型越來越大，它們開始提供人類層面的結果，然後是超人的結果。在 2015 - 2020 年間，用於訓練這些模型的計算增加了 6 個數量級，其結果超過了人類在手寫、語音和圖像識別、閱讀理解和語言理解方面的性能基準。 GPT-3 模型在這時脫穎而出，該模型的性能比 GPT-2 有了巨大的飛躍，內容涉及從代碼生成到寫作等多項任務。

儘管基礎研究取得了種種進展，但這些模型並不被人廣泛使用。原因是它們龐大且難以運行（需要 GPU 編排等），能夠使用這些模型的門檻太高（不可用或僅限封閉 BETA），而且用作雲服務的成本也很高。儘管存在這些局限性，但最早的生成式人工智能（GenAI）應用程序開始進入競爭階段。

第三波浪潮：更好、更快、更便宜（2022 年以後）

由於像AWS這樣的雲技術公司，一直在推動雲計算的普及，機器學習計算變得更加便宜。而像 diffusion model 等新技術降低了訓練和運行推理所需的成本，研究界因此可以繼續開發更好的算法和更大的模型。開發者訪問權限從封閉 BETA 擴展到開放 BETA，或者在某些情況下擴展到開源（open-source）。對於一直缺乏 LLM 訪問權限的開發人員來說，現在閘門已開放，可供探索和應用程序開發。應用程序開始蓬勃發展。

第四波浪潮：殺手級應用程序的出現（現在）

隨著基礎平台層的逐漸鞏固，模型不斷變得更好/更快/更便宜，模型訪問趨向於免費和開源，應用層的創造力爆炸的時機已經成熟。正如十年前的移動互聯網爆發的前夜，由於移動通過 GPS、攝像頭和移動連接等新場景、新功能釋放了新類型的應用程序一樣，我們預計這些大型模型將激發新一輪的生成式人工智能（GenAI）應用。我們預計生成式人工智能（GenAI）也將出現殺手級應用程序。

Source: https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/?trk=cndc-detail

2 生成式人工智能（GenAI）: 應用層藍圖構想

以下是生成式人工智能（GenAI）的應用格局圖，描述了為每個類別提供支持的平台層以及將在上面構建的潛在應用程序類型。

Source: https://www.sequoiacap.com/article/generative-ai-a-creative-new-world/?trk=cndc-detail

文本是進展最快的領域。

代碼生成可能會在短期內對開發人員的生產力產生重大影響，如 Amazon CodeWhisperer 所示。

圖像是一種較新的現象。我們看到了不同風格的圖像模型的出現，以及用於編輯和修改生成的圖像的不同技術。

語音合成已經存在了一段時間（例如，你好 Siri！）。就像圖像一樣，今天的模型也為進一步完善提供了起點。

視頻和三維模型正在迅速上線。人們對這些模式開啟電影、遊戲、虛擬現實和實體產品設計等大型創意市場的潛力感到興奮。

其他領域：從音頻和音樂到生物學和化學，許多領域都在進行基礎模型研發。

下圖說明了我們如何期望基本模型取得進展以及相關應用成為可能的時間表。

3 生成式人工智能（GenAI）: 文字生成圖像（Text-to-Image）方向

回顧過去的一年，有兩個 AIGC 方向已經發生了讓人驚豔的進步。其中一個方向就是：文字生成圖像（Text-to-Image）方向。根據來自亞馬遜雲科技的官方博客，用戶現在可以很方便的在 SageMaker JumpStart 中使用 Stable Diffusion 模型，輕鬆地生成富有想像力的繪畫作品。

The following images are in response to the inputs “a photo of an astronaut riding a horse on mars,” “a painting of new york city in impressionist style,” and “dog in a suit.”

The following images are in response to the inputs: (i) dogs playing poker, (ii) A colorful photo of a castle in the middle of a forest with trees, and (iii) A colorful photo of a castle in the middle of a forest with trees. Negative prompt: Yellow color.

Source: https://thinkwithwp.com/cn/blogs/machine-learning/generate-images-from-text-with-the-stable-diffusion-model-on-amazon-sagemaker-jumpstart/?trk=cndc-detail

關於文字生成圖像（Text-to-Image）方向的論文解讀、示例代碼等我們還會有機器學習及其他專題深入討論。

以上就是關於 Transformer 和 Generative AI 的部分介紹。在下一篇文章中，我們將詳細討論關於 Generative AI 另一個重要的進步方向就是：文字生成（Text Generation）方向。分享這個領域的最新進展，以及亞馬遜雲科技在為支持這些大型語言模型（LLMs）的編譯優化、分佈式訓練等方面的進展和貢獻。

了解更多面向開發者的技術分享和雲開發動態！

作者黃浩文

亞馬遜雲科技資深開發者佈道師，專注於 AI/ML、Data Science 等。擁有 20 多年電信、移動互聯網以及雲計算等行業架構設計、技術及創業管理等豐富經驗，曾曾就職於 Microsoft、Sun Microsystems、中國電信等企業，專注為遊戲、電商、媒體和廣告等企業客戶提供 AI/ML、數據分析和企業數字化轉型等解決方案諮詢服務。

原文: https://dev.amazoncloud.cn/column/article/6413095e3d950b57b3f9f63d

免費註冊 AWS 帳戶

新用戶最高可享 12 個月的免費試用，並探索高達 100 多種熱門服務與解決方案。

建立免費帳戶

探索 AWS 免費方案

保持聯繫

您是否需要協助解決營運難題或擴展業務或對 AWS 雲端有疑問？我們樂意提供協助。

聯絡 AWS 專員

想掌握 AWS 產品消息、培訓課程、活動最新動態嗎？請訂閲我們 AWS 香港的電子郵件。

訂閲 AWS 最新消息

選取您的 Cookie 偏好設定