Amazon Web Services ブログ

AWS Pi Day 2024: データを活用して生成 AI を強化しましょう

3月14日は AWS Pi Day です! 太平洋標準時の午後 1 時から始まる Twitch のライブ配信にご参加ください

18 年前のこの日、西海岸のある小売企業がオブジェクトストレージサービスを開始しAmazon Simple Storage Service (Amazon S3) を世界に発表しました。世界中の企業のデータ管理方法が変わるとは思いもしませんでした。2024 年に進むと、現代のビジネスはすべてデータビジネスです。私たちは、データがどのようにしてデジタルトランスフォーメーションを推進するのに役立つか、そして生成人工知能 (AI) がどのようにしてビジネスに予想外の有益な新しい機会をもたらすのかについて、数え切れないほどの時間を費やしてきました。私たちの対話は進化し、差別化された生成 AI アプリケーションの作成において、独自のデータがどのような役割を果たすかについての議論を取り入れるようになりました。

Amazon S3 は、実質的にどんなユースケースにも対応できる 350 兆以上のオブジェクトとエクサバイト規模のデータを保存し、1 秒あたり平均 1 億回以上のリクエストを処理していることから、皆様の生成 AI の旅の出発点になる可能性があります。しかし、最も重要なのはデータの量や保存場所ではなく、その品質です。質が高いデータでモデル応答の精度と信頼性を向上させることができます。最高データ責任者 (CDO) を対象とした最近の調査では、CDO のほぼ半数 (46%) が、生成 AI の実施における最大の課題の 1 つがデータ品質だと考えています。

今年の AWS Pi Day では、Amazon S3 の誕生日にあたり、データレイクから高性能ストレージまで、AWS Storage がどのようにデータ戦略を変革し、生成 AI プロジェクトの出発点となるかを観察していきます。

このライブオンラインイベントは、AWS Innovate: Generative AI + Data edition の終了直後の本日 (2024 年 3 月 14 日) 午後 1 時 (太平洋標準時) に始まります。Twitch の AWS OnAir チャンネルでライブ配信され、AWS の専門家による 4 時間の新しい教育コンテンツが取り上げられます。データと既存のデータアーキテクチャを使用してカスタマイズされた生成 AI アプリケーションを構築および監査する方法を学ぶだけでなく、最新の AWS ストレージイノベーションについても学ぶことができます。通常通り、このショーでは実践的なデモは満載、皆様がこれらのテクノロジーを直ちに使い始める方法を実際に見ることができます。

AWS Pi Day 2024

生成 AI のデータ
消費者活動、ビジネス分析、IoT センサー、コールセンターの記録、地理空間データ、メディアコンテンツ、またその他の要因によるデータは驚異的な速度で増加しています。このようなデータの増加は、生成 AI のすさまじい成長の原動力です。基盤モデル (FM) は、インターネットからのペタバイト規模のウェブページデータを含むオープンリポジトリである Common Crawl などのソースから提供される大量のデータセットに基づいてトレーニングされます。FM からの応答をさらにカスタマイズするために、組織はより小規模なプライベートデータセットを使用しています。これらのカスタマイズされたモデルは、次に、更に多くの生成 AI アプリケーションを促進し、お客様とのインタラクションを通じて、データフライホイールのためにさらに多くのデータを生成します。

業界、ユースケース、地域に関係なく、今すぐ始められるデータイニシアティブは 3 つあります。

まず、既存のデータを使用して AI システムを差別化します。ほとんどの組織の基盤は大量のデータです。このデータを使用して、特定のニーズに合わせて基盤モデルをカスタマイズおよびパーソナライズできます。パーソナライゼーション技術には、構造化されたデータが必要なものもあれば、そうでないものもあります。その他には、ラベル付きのデータまたは未加工データが必要なものもあります。Amazon BedrockAmazon SageMaker には、さまざまな既存の基盤モデルを微調整または事前トレーニングするための複数の解決策が用意されています。また、お客様や協力者のためにビジネスのエキスパートである Amazon Q をデプロイし、すぐに使用可能な 43 のサポートされるデータソース内の 1 つ以上を標的として指定することも可能です。

しかし、AI 利用の拡大に役立つ新しいデータインフラストラクチャの構築は望んでいないでしょう。生成 AI は、既存のアプリケーションと同じように組織のデータを消費します。

その次に、既存のデータアーキテクチャとデータパイプラインを生成 AI と連携させ、データアクセス、コンプライアンス、およびガバナンスに関する既存のルールを引き続き遵守することを望んでいます。当社のお客様は、AWS に 1,000,000 を超えるデータレイクをデプロイしていました。データレイク、Amazon S3、および既存のデータベースは、生成 AI アプリケーションを構築するための優れた出発点です。検索拡張生成 (RAG) をサポートするために、複数のデータベースシステムでベクターストレージと検索へのサポートを追加しました。Amazon OpenSearch Service は論理的な出発点かもしれません。ただし、pgvector を PostgreSQL 用の Amazon Aurora 、および PostgreSQL 用の Amazon Relational Database Service (Amazon RDS) と一緒に使用することもできます。また最近、Amazon MemoryDB for RedisAmazon NeptuneAmazon DocumentDB (MongoDB 互換) 用のベクターストレージと検索を発表しました。

また、現在既に導入されているデータパイプラインを再利用または拡張することも可能です。皆様の多くは、Amazon Managed Streaming for Apache Kafka (Amazon MSK)Amazon Managed Service for Apache FlinkAmazon Kinesis などの AWS ストリーミングテクノロジーを使用して、伝統的な機械学習 (ML) や AI でリアルタイムのデータ準備を行っています。これらのワークフローを拡張してデータの変更を捕捉して、ベクトルデータベースの更新によりほぼリアルタイムで大規模言語モデル (LLM) に変更を反映させたり、MSK のネイティブストリーミングインジェストを用いて Amazon OpenSearch Service にナレッジベースの変更を反映させたり、Amazon Kinesis Data Firehose を通じて Amazon S3 の統合データストリームで微調整データセットを更新したりすることができます。

LLM のトレーニングにおいて、スピードが重要です。データパイプラインは、トレーニングクラスター内の多くのノードにデータをフィードできる必要があります。Amazon S3 にデータレイクを持つお客様は、パフォーマンス要件を満たすために、Amazon S3 Express One Zone のようなオブジェクトストレージクラスや、Amazon FSx for Lustre のようなファイルストレージサービスを利用しています。 FSx for Lustre は緊密な統合を実現し、使い慣れた高性能ファイルインターフェイスを利用することで、オブジェクトデータ処理の高速化を可能にします。

幸いなことに、データインフラストラクチャが AWS サービスで構築されている場合、生成 AI のデータを拡張する方向に既に大きな進歩を遂げました。

第 3 に、自分自身の最高の監査人にならなければなりません。 すべてのデータ組織には、生成 AI のために定められた規制、コンプライアンス、コンテンツ管理に対して、事前に備える必要があります。トレーニングやカスタマイズにどのデータセットが使用されているか、また、モデルがどのように意思決定を行ったかを知っておく必要があります。生成 AI のような急速に変化している分野では、未来を予測する必要があります。AI システムをスケールする間、完全に自動化されている方法ですぐにそれを実行する必要があります。

データアーキテクチャでは、AWS CloudTrailAmazon DataZoneAmazon CloudWatchOpenSearch など、さまざまな AWS サービスを監査に使用され、データ使用量が管理および監視されています。これは AI システムへ簡単に拡張できます。生成 AI に AWS Managed Services を使用している場合は、組み込まれたデータの透明性を高める機能を利用できます。CloudTrail サポート付きの生成 AI 機能を発表するのは、企業からのお客様には、AI システムの監査証跡を持つことがいかに重要であるかを理解しているからです。Amazon Q でデータソースを作成すると、そのデータソースは CloudTrail に記録されます。CloudTrail イベントを使用して、Amazon CodeWhisperer によって作られた API コールをリストで表示することもできます。Amazon Bedrock には 80 を超える CloudTrail イベントがあり、これらを使用してファンデーションモデルの使用方法を監査するのが可能です。

前回の AWS re:Invent カンファレンスではAmazon Bedrock 向けのガードレールについても紹介しました。これにより、避けるべきトピックを指定できます。また、Bedrock は、制限されたカテゴリーに該当する質問に対し、承認済みの回答のみをユーザーに提供します

リリースされたばかりの新機能
Pi Day は、AWS ストレージとデータサービスの革新を祝う機会でもあります。ここでは、今回発表された新機能の一部を紹介します。

PyTorch 用 Amazon S3 コネクタは今、PyTorch Lightning のモデルチェックポイントを Amazon S3 に直接保存することをサポートするようになりました。モデルチェックポイントは通常、トレーニングジョブを一時停止する必要があるため、チェックポイントの保存に必要な時間は、エンドツーエンドのモデルトレーニング時間を直接に影響します。PyTorch Lightning はオープンソースのフレームワークで、PyTorch で行われるトレーニングやチェックポイントの作成にレベルの高いインターフェースを提供します。この新しい統合の詳細については、「最新情報」の投稿を参照してください

Amazon S3 on Outposts 認証キャッシュ – この新機能は、Amazon S3 のアイデンティティ認証および承認データをローカルの Outposts ラックに安全にキャッシュすることで、リクエストのたびに親 AWS リージョンへの往復する必要をなくして、ネットワークでの往復によって生じるレイテンシーの変動を減少します。Amazon S3 on Outposts 認証キャッシュの詳細については、「最新情報」の投稿、および AWS ストレージブログチャネルで発表されたこの新規投稿を参照してください

Mountpoint for Amazon S3 Container Storage Interface (CSI) ドライバーBottlerocket で使用できます。Bottlerocket は Linux に基づき、コンテナーのホストを目的とするオープンソースの無料オペレーティングシステムです。Mountpoint for Amazon S3 に基づいて構築された CSI ドライバーは、Amazon Elastic Kubernetes Service (Amazon EKS) と自己管理型 Kubernetes クラスター内のコンテナによって、S3 バケットをアクセス可能なボリュームとして表示します。これにより、アプリケーションがファイルシステムインターフェイスを介して S3 オブジェクトにアクセスできるため、アプリケーションコードを変更せずに高い集計スループットを実現します。「最新情報」の投稿には、Bottlerocket 用の CSI ドライバーに関する詳細が記載されています

Amazon Elastic File System (Amazon EFS) は、ファイルシステムあたりのスループットを 2 倍向上させました。当社は Elastic Throughput の制限について、読み取りオペレーションでは最大 20 GB/秒、書き込みでは最大 5 GB/秒までに引き上げました。つまり、機械学習、ゲノミクス、データ分析アプリケーションなど、スループットをさらに重視するワークロードに EFS を使用できるようになりました。EFS でのスループットの向上についての詳細は、「最新情報」の投稿を参照してください

今月初めに実行した重要な変更は、他にもあります。

Amazon S3 Express One Zone ストレージクラスと Amazon SageMaker の統合 – トレーニングデータ、チェックポイント、およびモデルアウトプットの読み込み時間を短縮することで、Amazon SageMaker モデルのトレーニングを加速できるようになります。この新しい統合の詳細については、「新機能」の投稿を参照してください

Amazon FSx for NetApp ONTAP は、ファイルシステムあたりの最大スループットキャパシティを 2 倍 (36 GB/秒から 72 GB/秒まで) に増加し、ONTAP のデータ管理機能をさらに幅広いパフォーマンスを重視するワークロードに使用できるようになりました。Amazon FSx for NetApp ONTAP の詳細については、「最新情報」の投稿を参照してください

ライブ配信中に期待できること
本日において開催された 4 時間のライブショーでは、これらの新機能のいくつかについて説明する予定です。私の同僚の Darko さんが、AWS の専門家を多数招いて実践的なデモンストレーションを行います。皆様が生成 AI プロジェクトでデータを活用する方法を探すのに手伝いをします。こちらは当日のスケジュールです。すべての時間は太平洋標準時 (PT) タイムゾーン (GMT-8) で表記されます。

  • 既存のデータアーキテクチャを生成 AI までに拡張 (午後 1 時~午後 2 時)。
    AWS のデータレイク上で分析を行っているなら、生成 AI のためのデータ戦略に向けて、既に大きく前進していると言えます。
  • 生成 AI のコンピューティングへのデータパスを加速 (午後 2 時~午後 3 時)。
    モデルトレーニングと推論のコンピューティングデータパスには、速度が大事です。それを実現するさまざまな方法をご覧ください。
  • RAG と微調整でカスタマイズ (午後 3 時~午後 4 時)。
    基本的な基盤モデルをカスタマイズする最新の技術をご覧ください。
  • GenAI の最高のオーディターになりましょう (午後 4 時~午後 5 時)。
    コンプライアンスの目標を達成するために、既存の AWS サービスを活用しましょう。

AWS Pi Day ライブストリームに今すぐご参加ください。

お会いできるのを願っています!

— seb

原文はこちらです。