AWS Startup ブログ
GPU リソース調達の課題を解決。RADIUS5 社が AWS を選んだ理由。
近年、AI を活用したサービスを提供する企業が急増しています。AI により、従来解決が難しかった課題が解決され、新たなビジネスが次々に生まれています。一方で、 こういったサービスを提供するには大量のGPUインスタンスが必要不可欠です。
クリエイティブ領域を AI で支援する株式会社ラディウス・ファイブは、サービス運営に必要な GPU インスタンスを十分に確保できず、可用性とスケーラビリティの面で課題を抱えていました。1 つのクラウドベンダーだけでは必要な量を満たせなかったため、やむなく複数のクラウドベンダーを利用してインスタンスを調達していました。AWSの採用を機に、必要な GPUインスタンスを安定して調達できるようになり、これらの課題を解消しました。
アマゾン ウェブ サービス ジャパン合同会社 スタートアップ事業本部 アカウントマネージャー 小林 主典とソリューションアーキテクト 内田 誠悟が、ラディウス・ファイブ 取締役 COO 菅原 健太氏と機械学習エンジニア 東 耕平氏にお話を伺いました。
独自に開発した AI 技術でクリエイティブ領域を支援
小林:ラディウス・ファイブの事業概要について教えてください。
菅原:弊社は大きく分けて、2 つの領域でサービスを提供しています。イラスト制作や画像・動画の編集加工、素材作成といった制作業務を支援するクリエイティブ AI 事業。そして、ライセンスを受けたモデルを開発し、世の中に提供するライセンス・AI プラットフォーム事業です。ライセンス・AI プラットフォーム事業を統括しているのが私で、クリエイティブ AI 事業を統括しているのが東になります。
ライセンス・AI プラットフォーム事業では、たとえば特定のクライアント企業から依頼を受け、特定の用途に特化した生成 AI モデルを開発します。他にも、特定のイラストレーターの特徴を捉えたイラストを自動作成するサービスも提供しています。
東:クリエイティブ AI 事業では、イラストや漫画の制作を支援する AI を、使いやすい形式で提供します。例を挙げると、着彩・背景・仕上げといった、イラスト制作のさまざまな局面をお手伝いする「copainter」というサービスがあります。
台数の確保と安定性に課題
内田:御社はこれまで、GPU のキャパシティを確保するために、さまざまなクラウドベンダーを利用されてきたと伺っています。そのときの背景や状況を教えて下さい。
菅原:弊社が提供するサービスでは、1 分間あたり数百件ほどのリクエストがあります。一般的な Web サービスであればそれほど多いリクエスト数ではないかもしれません。 AI を活用したサービスでは従来の Web サービスと比べて 1 つのリクエストに対する処理が非常に重く、これに対応するには 大量の GPU インスタンスが必要です。
例えば、案件によっては数百台の GPU インスタンスが必要になります。これまで、あらゆるクラウドベンダーを試してきましたが、1 つのベンダーでそれだけのキャパシティを確保することは難しく、結果として複数のクラウドベンダーから GPU インスタンスを調達する形になりました。ベンダーによっては要求した GPU インスタンスが調達できるまでに 1 ヶ月以上待たされることもありました。
また、起動した GPU インスタンスで故障が度々発生していました。一般的に 仮想マシンは一定確率で故障するものですが、頻度が多く、それに備えて余分に GPU インスタンスを用意していました。
AWS がもたらしたキャパシティ確保のスピード感と安定性
小林:そんな折に、AWS を試されたのですね。
菅原:そうです。あるプロジェクトで AWS を採用することになり、動作検証をしたところ、GPU インスタンスがかなり安定して稼働することがわかりました。そして、最もありがたかったのは、GPU のキャパシティの上限緩和をリクエストした際に、早ければ即日で対応してもらえたことです。
GPU インスタンスは世界的に不足しているため、クラウドベンダーによってはキャパシティ上限の緩和に時間がかかることや、必要な台数を用意できないことがあります。その点、 AWS はたくさんの GPU インスタンスを問題なく調達できるため、非常に助かりました。
これまで数百台の規模で GPU インスタンスが必要になったことがありますが、今後は数千台ほど必要になるかもケースが出てくるかもしれません。だからこそ、AWS の存在がサービス運営において大きくプラスになっています。
アーキテクチャ上の工夫
内田:御社ではアーキテクチャの組み方も工夫されていますが、その点も解説していただけますか。
菅原:私たちは非同期処理を前提としたシステムにしています。GPU インスタンスの前に Queueを配置し、サービス利用者からのリクエストをひとまず受け付けます。Queue の後ろに配置した GPU インスタンスで Queue に貯められたリクエストを順次処理していきます。Queue には Amazon SQS を採用しています。
内田: Amazon SQS はサーバー管理が不要な Queue サービスですね。AWS サービスの中でも歴史が長く、AWS 内部でも頻繁に利用されているオススメのサービスです。Queue の後ろの GPU インスタンスを複数のリージョンに分散させているのにも何か理由はありますか?
菅原:クラウドベンダーが提供する GPU インスタンスは、利用者全体の需要とベンダー側の供給状況によって、どうしても十分に確保できない場面が出てきます。そのため、あるリージョンのインスタンスが全て利用可能であることを前提にシステムを設計してしまうと、サービス停止のリスクがあるんです。
そこで、複数のリージョンに GPU インスタンスを分散させることで、特定のリージョンにおけるキャパシティ不足の影響をできる限り減らすようにしています。また、AWS の GPU インスタンスだったとしても一定数は故障します。故障に備えて多めにインスタンスを揃える上で、オンデマンドインスタンスの半額に近い価格で利用できるスポットインスタンスを採用しています。ユースケースにマッチするならば、スポットインスタンスはオススメです。
まずは AWS の GPU インスタンスを試してほしい
内田:今後、システム面でさらに改善したい点はありますか。
菅原:AI を活用したサービスでは、処理が完了するまで一定の時間がかかります。そうした、実行中の処理のステータスを可視化できるようにしたいです。どれくらい待たされるのかがわかればユーザビリティが向上しますし、計測することで改善にもつなげられます。また、NVIDIA L40S Tensor Core GPU を搭載した Amazon EC2 G6e も一般提供されましたので、こういった最新インスタンスを積極的に導入も検討しパフォーマンスをさらに改善していきます。
東:個人的に特に課題だと感じているのは、ディスク I/O 周りです。Stable Diffusion などの生成 AI はモデルの重みデータが大きく、それをロードしたり切り替えたりする際に時間がかかります。この部分を AWS と協力して改善していきたいと思っています。
小林:事業や開発組織の目標はいかがでしょうか。
菅原:今後もより多くの企業のライセンスを扱い、世の中にたくさんの事例を生み出したいです。開発組織としては、すでに多くのメンバーが開発だけでなくインフラ関連の業務にも関与していますが、インフラへのコミットメントをさらに強化する体制を目指しています。また、システムのオブザーバビリティを向上させ、どこを改善すれば良くなるのかを明確に把握できる仕組みを構築したいと考えています。
東:クリエイティブ AI 事業においては、「AI によってクリエイターの方々を支えたい」という思いを持つエンジニアをさらに採用し、より良い開発組織を目指したいです。
小林:今後が非常に楽しみですね。御社のプロダクトは言語による障壁が少ないので、日本だけでなく海外のマーケットにも進出しやすく、高い将来性があると感じています。最後に、GPU インスタンスの導入を検討されている読者に向けて、お二人からメッセージをお願いできますか。
菅原:AWS は GPU インスタンスの供給量や安定性が非常に高い水準にあります。また、各種 SDK も充実しているので、ぜひ一度試してください。
東:さまざまなクラウドベンダーが GPU インスタンスを提供していますが、まず AWS を使うことをおすすめします。AWS の公式ドキュメントだけでなく、利用企業が作成した関連ドキュメントも充実していますから、利用中に困ったことがあればすぐに調べられるはずです。
小林:みなさん、今回はありがとうございました。