最大 40% 削減
トレーニングにかかる時間
1 時間あたり 10 万件以上
処理可能なクエリ件数
維持
低レイテンシー
最適化
ユーザーエクスペリエンス
概要
変革の力となる生成人工知能 (AI) を使うと、機械学習 (ML) アルゴリズムに膨大な量のデータを学習させ、画像からテキストに至るまでさまざまな新しいコンテンツを生成できます。世界初の会話型回答エンジンの 1 つを構築中の Perplexity は、そうした生成 AI の力を活用し、ユーザーが関連性の高い知識を見つけられるようにすることを目指しています。
Perplexity は、モデルの正確さと精度を最適化するという課題に直面し、計算処理の要件を満たす堅牢なソリューションを必要としていました。ユーザー体験の向上というビジョンを掲げていた同社は、Amazon Web Services (AWS) に注目し、AWS の高度な ML インフラストラクチャ、トレーニングライブラリ、推論ツールを使用して、グローバルユーザーベースへの大規模なサービス提供に必要な柔軟性、パフォーマンス、効率性を実現しました。
機会 | AWS のサービスを使用して、ユーザー体験を最適化
関係性の高い結果よりも広告や特定のキーワードが優先されることが多い従来の検索エンジンとは異なり、Perplexity のソリューションは、ユーザーが本当に求める知識が提示されるように最適化されています。月間約 1,000 万のアクティブユーザーが Perplexity を利用して、新しい概念を学び、課題を解決し、答えを見つけています。
Perplexity の Cofounder で CEO を務める Aravind Srinivas 氏は、こう話します。「大規模言語モデルを使えば、人間の言語理解力と推論能力を 1 つのモデルにまとめられます。当社の回答エンジンは、そうしたモデルと、インターネット上にある事実をともに利用して構築したものです。要するに、従来の検索インデックス (事実エンジン) と推論エンジン (大規模言語モデル) を連携させて、世界初の会話型回答エンジンを構築したのです」。
2022 年のサービス公開以来、Perplexity は、Amazon Elastic Compute Cloud (Amazon EC2) (事実上あらゆるワークロードで安全でサイズ変更可能なコンピューティングキャパシティを利用できる) などの、AWS のコアサービスを使用して、自社サービスのバックエンド、フロントエンド、検索コンポーネントを強化してきましたが、会社の成熟と ML モデル数の増加に伴い、ユーザーにサービスを提供する大規模なコンピューティング能力が必要になりました。
AWS の専門家に相談後、Amazon SageMaker HyperPod (大規模分散トレーニングに特化したインフラストラクチャ) なら、大規模なモデルトレーニングの要件を満たすことがわかりました。Amazon SageMaker HyperPod には、Amazon SageMaker の分散トレーニングライブラリが事前に設定されています。こうしたライブラリは、1,600 Gbps を超える相互接続速度で、スケーラビリティと高い費用対効果を実現しながら、カスタムのデータ並列およびモデル並列深層学習トレーニングジョブを実行するように最適化されています。Amazon SageMaker HyperPod を導入すると、チェックポイントの定期的な保存によって、基盤モデルトレーニングの中断を防ぐこともできます。トレーニング中にハードウェア障害が発生すると、障害が自動検出され、障害が生じたインスタンスの修復または交換の後に、最後に保存されたチェックポイントからトレーニングが再開されます。これにより、分散環境でのモデルトレーニングを数週間から数か月にわたって中断なく行えるようになります。
AWS で最も大きい影響力を持つのは顧客です。どのサービスを利用すべきかは顧客が決めます”
Aravind Srinivas 氏
Perplexity、CEO 兼 Cofounder
ソリューション | Amazon SageMaker HyperPod で、モデルのトレーニング時間を最大 40% 削減
AWS は、分散型トレーニング機能を実証するために 1 か月間のトライアルを提供し、Perplexity は、その期間中に AWS 導入の利点を認識しました。例えば、リソース割り当ての柔軟性が向上しました。特定のタスク向けに調整されたさまざまな Amazon EC2 インスタンスと GPU を使用するからです。
ML モデルをトレーニングするには、膨大な量のデータを処理しさまざまな勾配を保存するために、大容量のメモリが必要です。そこで、メモリと帯域幅の要件を満たす Amazon EC2 P4de インスタンスを選択して、トレーニングジョブを実行しました。こうしたインスタンスなら、ML トレーニングとハイパフォーマンスコンピューティングアプリケーションでパフォーマンスを最大化できます。また、Amazon SageMaker HyperPod を使用して、さまざまな GPU 間でデータ転送を大幅に高速化したため、ML モデルのトレーニング時間を最大 40 パーセント削減できました。
Srinivas 氏は、こう話します。「Amazon SageMaker HyperPod の組み込みデータと、モデル並列ライブラリを使用して、GPU でのトレーニング時間を最適化できたので、トレーニングのスループットが倍増しました。その結果、今では、トレーニングを 2 倍の速さで実行できています。つまり、イテレーション期間が短縮されるため、顧客向けの新しい生成 AI 体験をより迅速に開発できるのです。Amazon SageMaker HyperPod なら、クラスターの状態を自動監視して GPU の障害を修復するため、開発者がモデルの構築に集中できます。基盤となるインフラストラクチャの管理と最適化に時間を取られることはありません」。
Perplexity の目標は、ほぼリアルタイムの推論機能が必要なユーザーのクエリに、迅速かつ正確な応答を返すことです。Amazon EC2 P5 インスタンス (深層学習アプリケーション用の高性能 GPU ベースのインスタンスを利用可能) を使用すれば、以前よりもはるかに高いスループットで回答を生成できます。それどころか、10,000 ユーザーが同時に接続し、1 時間あたり 100,000 件を超えるクエリが発生する急増期にも処理が可能であり、レイテンシーの低下や、ユーザー体験へのマイナスの影響も生じません。さらに、広く公開されている Llama 2 モデルを Amazon EC2 P5 インスタンス上でホストし、Amazon SageMaker HyperPod を使用してそのオープンソースモデルを独自データで微調整します。そうした微調整により、応答の精度と関連性が向上し、Perplexity の応答エンジン要件に沿ったモデルのカスタマイズも可能になります。
成果 | AWS のインフラストラクチャサービスと AI/ML サービスを利用して、生成 AI を推進
成果を踏まえ、生成 AI の新境地を開拓する準備ができた Perplexity は、将来を見据えた戦略の 1 つとして、AWS Trainium (高性能 ML トレーニングアクセラレータ) を試し、トレーニングのスループットをさらに高めるつもりです。また、ユーザーが同社の大規模言語モデルにアクセスできるようにする API も公開しました。API は、完全に AWS で稼動させ、Amazon SageMaker HyperPod によって最適化しています。
知識ベースを拡大して、さらに正確な回答をユーザーに返すために、Perplexity は Amazon Bedrock も導入しました。このフルマネージドサービスを利用すると、単一の API を介して大手 AI 企業の高性能基盤モデルを選択できます。例えば、同社は、Amazon Bedrock を通じて Claude 2 を使用し、コーディング、数学、推論向けの高度な機能をサービスに取り入れました。
Srinivas 氏は、こう言います。「AWS で最も大きい影響力を持つのは顧客です。どのサービスを利用すべきかは顧客が決めます。『顧客にとって最良の取り組みを行うこと。自社のビジネスに最善を尽くすこと』。それが AWS チームの重要なアドバイスです。 顧客中心という AWS の考え方には、大きく納得させられます」。
Perplexity について
Perplexity は、広告やキーワードを優先するよりも、ユーザーが求める知識を提示するように最適化した機能的な会話型回答エンジンを構築しています。
利用している AWS のサービス
Amazon SageMaker HyperPod
Amazon SageMaker HyperPod は、トレーニング基盤モデル (FM) 用の機械学習 (ML) インフラストラクチャの構築と最適化に伴う差別化につながらない手間のかかる作業を排除し、トレーニング時間を最大 40% 削減します。
Amazon EC2 P5 インスタンス
最新の NVIDIA H100 Tensor Core GPU を搭載した Amazon Elastic Compute Cloud (Amazon EC2) P5 インスタンスは、深層学習 (DL) およびハイパフォーマンスコンピューティング (HPC) アプリケーションにおいて Amazon EC2 で最高のパフォーマンスを発揮します。
Amazon EC2 P4de インスタンス
P4de インスタンスは、80GB の高性能 HBM2e GPU メモリ、現在の P4d インスタンスの GPU より 2 倍速い GPU を備えた 8 つの NVIDIA A100 GPU を搭載しています。
Amazon Bedrock
Amazon Bedrock はフルマネージドサービスであり、これによって、AI21 Labs、Anthropic、Cohere、Meta、Stability AI、Amazon などの大手 AI 企業の高性能基盤モデル (FM) を単一の API で選択可能なほか、セキュリティ、プライバシー、責任ある AI に配慮した生成 AI アプリケーション構築に必要な機能を幅広く利用できます。
ソフトウェアとインターネットについての事例
無料利用枠で Amazon SageMaker の使用を開始する
AWS 無料利用枠の一環として、Amazon SageMaker の使用を無料で開始できます。2 か月間の無料利用枠は、初めて SageMaker リソースを作成した最初の月から始まります。