Amazon Web Services ブログ

AWS Summit Japan 2024 第一三共株式会社における創薬研究クラウドプラットフォーム

このブログは、第一三共株式会社 研究統括部 研究イノベーション企画部と、アマゾン ウェブ サービス ジャパン合同会社 ソリューション アーキテクト 中島丈博による共著です。

2024 年 6 月 20 日、21 日に幕張メッセで開催された AWS Summit Japan では、EXPO として AWS Village と呼ばれる展示エリアが用意され、AWS のサービスやインダストリーソリューションを扱う 90 以上のAWS 展示と、50 以上のお客様事例展示がございました。その中に展開された Industry Zone では、各業界向けの最新の AWS ソリューションの展示や、実際に AWS を活用している企業のブースも併設されました。 また、第一三共株式会社は業界セッション「創薬を加速する第一三共のセルフサービス型クラウド基盤 ~モブワークで挑む基盤内製と人材育成の両立~」へ登壇し、Industry Zone のヘルスケア・ライフサイエンス業界向けブースに出展されました。

今回のブログでは、Industry Zone の第一三共株式会社ブースで展示された創薬研究プラットフォームについて、プラットフォーム概要、AWS アーキテクチャをご紹介します。

第一三共株式会社における創薬研究プラットフォームのご紹介

第一三共株式会社は、革新的な医薬品を継続的に創出し、多様な医療ニーズに対応する製品を提供することで、世界中の人々の健康と豊かな生活に貢献することを目指している製薬企業です。医薬品の研究開発は、その膨大な時間とコスト、そして極めて低い成功確率から、非常に挑戦的な領域です。通常、新薬の開発には 10 〜 20 年という長い期間と、数百億から数千億円に及ぶ莫大な費用がかかります。また、創薬の成功確率は数万分の 1 とも言われており、ますます難易度が増しています。 このような課題に対し、私たちは最新の技術を活用して創薬プロセスの革新を試みております。実験自動化による効率の向上や時間短縮、AI・データサイエンス技術の導入による成功確率の向上が期待される中、これらを支えるデータ蓄積・解析基盤の構築が不可欠です。 当社では、ここ数年にわたり AWS クラウドを全面的に活用し、創薬研究の効率化と成功確率の向上を目指したプラットフォームを構築してきました。 本ブログでは、これらの取り組みから

  1. 実験データ転送の自動化
  2. 柔軟に利用可能なハイパフォーマンスコンピューティング (HPC) クラスター環境
  3. 収集・正規化されたデータの可視化と解析

の 3 つの活用事例についてご紹介します。

実験データの自動転送・処理

実験機器のハイスループット化は近年も著しく、データの効率的な転送や安全な保管は創薬研究においても重要な課題です。私たちのグループの次世代 DNA シーケンサー (NGS) は 1 回のランで数百 GB の生データを出力し、繁忙期には数日おきにランが行われています。従来のデータ転送は、大容量データの扱いに向かない GUI 操作や外付けストレージ(HDD、SSD)の輸送によって行われるケースが多くありました。これらは時間がかかる上に操作ミスによるデータの破損の危険を高めます。そこで私たちは、NGS のランの最中にリアルタイムでデータを Amazon Simple Storage Service (Amazon S3) バケットに転送するシステムを構築しました。Amazon S3 バケットは HPC 用ファイルシステムである Amazon FSx for Lustre と同期されており、Amazon S3 にアップロードされたデータは HPC 環境からアクセス可能です。結果として、NGS のラン終了の 1–2 時間後には出力されたデータの解析を始めることができ、研究サイクルの迅速化が達成されています。執筆時点では AWS コマンドラインインターフェイス (AWS CLI) を社内の PC から定期実行することでシステムを稼働させていますが、AWS では転送サービスの選択肢も多く、転送完了をトリガーとして AWS Lambda によりデータを自動処理するといった将来像も考えることができ、その拡張性は大きな魅力です。

柔軟に利用可能な HPC クラスター環境の開発

私たちのグループでは探索的な研究を主に行っており、トライ&エラーを頻繁に繰り返しています。新規の解析手法を試しても多くは採用されません。また、私たちが関わるバイオインフォマティクス分野はオープンソースの解析ツールが広く用いられており、それらの多くは必要リソースを明記していません。これらの要因によって、必要な計算リソースの見積もりは困難になっています。そのような背景において、AWS クラウド環境の柔軟性は大きな利点となります。
データ解析用の HPC 環境は AWS ParallelCluster を用いて構築し、GPU インスタンスを含めた様々な性能の Amazon EC2 インスタンスを、必要に応じてジョブスケジューラ(Slurm)から利用することができます。前述の NGS のデータ解析はファイル入出力の負荷も大きいのですが、ファイルシステムは Amazon FSx for Lustre を用いることで高速に処理を実行できています。ファイルシステムは Amazon S3 に関連付けておき、処理が終わったデータは Amazon S3 へアーカイブし Amazon FSx for Lustre からのリリースを行なっています。こうすることで、Amazon FSx for Lustre は作業場所、Amazon S3 は保管場所、という役割分担ができコストも抑えることができます。Amazon FSx for Lustre と Amazon S3 のデータ同期は速く、不便を感じることはありません。
その他、NICE DCV を用いてゲノムブラウザ等の GUI アプリケーションを Amazon EC2 で実行しつつ PC 画面に結果を表示するアーキテクチャも構築しています。また、AWS Batch を用いてコンテナ化された定型処理を実行可能です。様々な実行環境を備えておくことで、各ツールに応じて最適なものを選択できるようにし、効率良く探索的な創薬研究を行えるようになりました。

収集・正規化されたデータの可視化と解析

私たちのグループではデータを解析・可視化するだけでなく、他の研究者が自身で解析を行うための Web アプリケーションを提供しております。複数のアプリケーションを個別に管理することは多大な労力を要するため、アプリケーション公開のための基盤を構築しました。
この基盤は Amazon Elastic Container Service (Amazon ECS) を用いて設計し、Web ツールを展開するために必要なサーバーインフラの設定は、 AWS Step Functions を活用して全て自動化しました。これにより、開発者は Docker コンテナでアプリケーションを開発し、Amazon Elastic Container Registry (Amazon ECR) に push するだけで、自動的に Web サーバーのポートが開き、その開いたポートにアクセスするだけでアプリケーションへの接続が可能となります。このような構成を構築したことにより、開発者はアプリケーション公開のための環境を整える必要がなくなり、アプリケーション開発という本質的な業務に集中できるようになりました。さらに、複数のアプリケーションを一つの基盤で管理できるため、効率性と一貫性が向上しました。また、研究データの中には、特許性や共同研究契約などの理由で、一部の研究者にしか閲覧が認められないデータも存在します。こうしたデータを扱うために、アプリケーションの閲覧権限も設定する必要がありました。それを実現するために、ユーザー認証機能を Amazon Cognito と Azure AD を組み合わせて実装しました。これにより、所属部署によってアクセス権を設定可能にし、ユーザー管理を個別に行うのではなく、所属部署で一元管理できるようになりました。これはアプリの管理者にとって、ユーザー管理の手間を大幅に減らし、効率的な運用を可能にしました。
以上のように、収集・正規化されたデータの可視化と解析に関する基盤は、開発者が本質的な業務に集中できる環境を提供し、効率的かつ安全なデータ管理を可能にしています。

アジャイルアプリケーション開発に取り組んだ事例の紹介

アプリケーション開発にあたって、開発者とユーザーのワーキンググループを結成し、ユーザーのニーズに基づいて研究データ解析のためのアプリケーション開発に取り組んでおります。内製でアプリケーション開発を行う場合、ユーザーと開発者との距離が近いため、コミュニケーションが密に取りやすいと実感しています。そのため、要件を適宜確認し、フィードバックを頻繁にもらい、アプリケーションの改善を複数回にわたって行ってきました。実際にこのアプローチにて医薬品候補化合物の活性評価試験結果を可視化するビューワーを作成しました。

ユーザーの意見を反映した可視化方法を採用する等により、データサイエンティストと研究者が共同で効果的なアプリケーションの開発を実現しました。

AWS アーキテクチャのご紹介

ここからは、創薬研究プラットフォームの「データサイエンティストの研究環境」と「研究者に向けたアプリケーションのデプロイ環境」についてそれぞれご紹介します。

データサイエンティストの研究環境

データサイエンティストの研究環境は AWS クラウドでのハイパフォーマンスコンピューティング (HPC) クラスターによって構成されており、両方の HPC クラスターでバイオインフォマティクスの分野で広く利用されているワークフローエンジンである Nextflow がセットアップされています。

解析環境は AWS ParallelCluster と AWS Batch を利用した 2 つの HPC クラスターについてご紹介します。

ジョブスケジューラー Slurm を利用可能な AWS ParallelCluster による解析環境

AWS ParallelCluster は AWS がサポートするオープンソースのクラスター管理ツールです。クラスター構成を yaml ファイルで定義すると、infrastructure as code (IaC) を使用してワークフローの各ステップのニーズに合わせて設定した Amazon EC2 インスタンスのクラスターをプロビジョニングします。 本環境ではバイオインフォマティシャンは AWS Systems Manager (SSM) Session Manager を利用してヘッドノードに SSH ログインしてジョブを実行します。SSM は、AWS アプリケーションおよびリソースを安全でセキュアにオペレーションするためのフルマネージドサービスであり、Session Manager はリソース管理のための SSM 機能です。ここではバイオインフォマティシャンがヘッドノードにインターネットを経由してセキュアに SSH アクセスするために利用しています。 AWS ParallelCluster では Nextflow の Executor 機能を利用することで、SLURM のリソースマネージャーを使用してパイプラインスクリプトを実行しています。こちらについては Nextflow のドキュメントブログが参考となります。またストレージは 大容量データを取り扱うことから高パフォーマンスが求められるため、HPC で使用される分散ファイルシステムである Lustre をフルマネージドで提供する Amazon FSx for Lustre を利用しています。Amazon FSx for Lustre は Amazon S3 とシームレスに連携可能なため、様々な AWS サービスとのデータ連携が容易となります。

バッチコンピューティングのフルマネージドサービス AWS Batch による解析環境

AWS Batch は AWS クラウドでバッチコンピューティングワークロードを実行するためのフルマネージドサービスです。Docker コンテナイメージを利用可能でジョブの実行とコンピューティングリソース管理をAWSが実施するため、ユーザーは結果の分析や問題の解決に集中することが可能です。 Nextflow を AWS Batch で利用するには Nextflow のドキュメントに紹介されたマニュアルをもとに構築します。また、Nextflow は AWS Batch をサポートしており、Executor 機能を利用することが可能です。Nextflow ジョブはヘッドジョブとして実行され、その後パイプラインに定義したタスクに応じてタスクジョブが実行されます。ゲノムデータなどのインプットデータや解析によって得られたアウトプットデータは、Amazon S3 を利用してデータの取得と保存が可能です。

研究者に向けたアプリケーションのデプロイ環境

研究者に向けたアプリケーションのデプロイ環境は Docker コンテナの実行環境となります。

アプリケーションのユーザーであるバイオロジストはロードバランサーを介してコンテナ上で実行されるアプリケーションにアクセスします。その際、認証基盤はウェブアプリとモバイルアプリ用のアイデンティティプラットフォームである Amazon Cognito を利用しており、既存の Azure AD へのフェデレーションログインを可能としています。また Amazon Cognito はApplication Load Balancer (ALB) と共に利用することでユーザー認証機能をALB に実装可能なため、認証機能をプラットフォームに実装することでセキュアな環境を構築しています。さらに開発者はアプリケーションに認証機能の実装は必要ないため、開発の負担を減らすことができます。

次に、アプリケーションのデプロイについてご紹介します。開発者が Web アプリケーションを Docker コンテナを利用して構築したら、Amazon ECR に Docker イメージを push します。push されると、それをトリガーにして Amazon EventBridge 経由で AWS Step Functions を起動します。AWS Step Functions はフルマネージドな AWS のワークフローサービスであり、様々なワークロードの自動化やオーケストレーションを大規模に実行可能なサービスです。今回実装したワークフローではロードバランサーの設定や認証機能の実装、コンテナイメージの実行を行っています。

おわりに

本ブログでご紹介した第一三共株式会社の展示や関連する AWS サービスに関して、ご興味・ご質問をお持ちのお客様はお問い合わせフォームもしくは担当営業までご連絡ください。

著者について

第一三共株式会社

山田 倫太郎 (Rintaro Yamada) 研究イノベーション企画部 研究員: 創薬研究において、データ活用のためのクラウド環境構築や解析ツールの開発などをしています。趣味は、温泉巡りをすること、ピアノを弾くことです。

梶谷 嶺 (Rei Kajitani) 研究イノベーション企画部 専門研究員: 創薬のためのバイオインフォマティクス解析を行いつつ、クラウド環境構築や実験機器との連携の支援をしています。ゲノムに興味を持っています。

国本 亮 (Ryo Kunimoto) 研究イノベーション企画部 データ駆動型創薬担当: 創薬のためのバイオおよびケモインフォマティクス研究、及び研究環境構築に広く関わっています。

中川 寛之 (Hiroyuki Nakagawa) デジタル&テクノロジー部 研究領域担当: Cloud Center of Excellenceのメンバーとして、研究領域のクラウドネイティブな形態への変革とそれを支えるモード2ITの取り組みやアジャイルソフトウェア開発の価値観の普及に奔走しています。

アマゾン ウェブ サービス ジャパン合同会社

中島 丈博 (Takehiro Nakajima) ヘルスケア&ライフサイエンス部 ソリューションアーキテクト: ヘルスケア・ライフサイエンスのお客様を中心にクラウド利用の技術支援をしており、ユースケースの紹介やお客様のご要望を具現化するための活動をしています。週末は旅の予定に思いを巡らせています。