Amazon Web Services ブログ

ゲノムエンジニアリングのアプリケーション: クラウドを早期導入

オーストラリア連邦科学産業研究機構 (Commonwealth Scientific and Industrial Research Organization (CSIRO)) から、重要な新しいゲノム編集技術で AWS が活用されている件について寄稿いただきました。– Jeff


最近の分子工学技術ではゲノム編集を正確に行えるようになりました。この CRISPR-Cas9 という新技術は独自の DNA 配列でパターンマッチングを行い、ゲノム内で特定の場所を識別し編集できるようにプログラムすることが可能です。これは研究者にとってパワフルで新しいツールですが、ゲノム全体にわたりターゲットをスキャンし探すということは、これまでにない大規模なコンピューターの使用が必要であることも意味しています。今年始めにアメリカ国立衛生研究所 (US National Institutes of Health (NIH)) はヒトの健康においてこうした技術の使用を承認しました。これはがん治療に革命を起こす可能性を秘め、計算力においてもスピードが重視されることを意味しています。がん治療の新しいアプローチ およそ 5 人に 1 人はがんにかかるといわれている昨今、がん生存率は 2 倍になったといわれていますが、脾臓がんの場合はその確率が 1 % といったように生存率の低い種類のがんはまだあります。その理由は、主に健康な細胞組織に害を加えずに、がん細胞を消滅させる治療的介入を見つけることが困難だからです。従来とは異なる治療法を開発する上で、NIH が新たにトライアル承認した CRISPR-Cas9 はゲノム編集技術において飛躍的な進歩を可能にします。自然にがんと闘う細胞の特異的修飾により、患者は自分の免疫システムを強化させることができます。特定の血液がんや固形がんまたは黒色腫を患う患者を含む、現在行っている研究で幅広い範囲にわたり、この技術は異なる腫瘍に対し効力を発する可能性を持っています。計算に基づいたゲノムエンジニアリングにおけるクラウドサービスヒトの健康を対象としたこの新しいアプリケーションは、臨床ケアの時間的制約に応えるため CRISPR-Cas9 デザインの堅牢性と効率性を必要としています。AWS クラウドサービスをベースにして eHealth プログラム、オーストラリ連邦科学産業研究機構 (CSIRO) は、この問題に取り組むために新型のソフトウェアツール、GT-Scan2 を開発しました。「他の方法に比べて GT-Scan2 は遺伝子位置を高感度かつ特異性をもって特定することができます」と、トランスフォーメーショナルバイオインフォマティクスチームを率いる Dr. Denis Bauer は語っています。

GT-Scan2 はゲノム位置で特定した CRISPR ターゲットの位置を示し、その高アクティビティや低アクティビティを記述するほか、オフターゲットの可能性も表示します。

GT-Scan2 はゲノムで独自の位置を見つけることでシステムの効率性を高めます。これによりゲノム内にある別の位置で配列相同性が高い「オフターゲット」によって影響力を弱められないようにします。変更しやすい位置を見つけることで堅牢性を最適化します。「ゲノムの 3D 構成が CRISPR バインディングの役割を担うことはすでに知られていましたが、GT-Scan2 は Cas9 アクティビティにとって重量となる別のコンポーネントも活用する最初のツールです」と、コンピュテーショナルゲノムエンジニアリングを研究する Dr. Laurence Wilson は述べています。特にオフターゲット検索は数値計算タスクで各ロケーションにつき 30 億文字列という非常に長いゲノム配列を調査する必要があります。そのため、従来は高性能な計算力を備えたインフラストラクチャを持つ大規模な組織の研究者が行うタスクでした。GT-Scan2 は AWS Lambda 関数を使用し、この複雑な計算力をクラウドサービスとして提供することで、最適位置を見付けることができます。パーソナライズ治療を瞬時にスケール GT-Scan2 はイベント駆動型の AWS Lambda サービスが提供するすばやいスケーラビリティを利用します。標的化遺伝子は劇的に変動するため、これはパーソナライズ治療において非常に大切です。「オフターゲットの研究や堅牢性の分析は並行して実行できる各モジュラータスクに分けることができます」と、Aidan O’Brien は述べています。同氏は、AWS Summit 2016 で今年 4 月のアジアパシフィックリリースから数週間内にこのシステムを設計し導入、さらにそのサービスの直観的な性質を証明しています。通常、1 つのジョブの所要時間は 1 分未満でジョブ間の変動時間は 1 秒から 5 分です。数分内というロード時間の迅速な変動は、ランタイムの安定性を維持するにはオンラインになるのが遅すぎロードに数時間を要する新しいインスタンスとしての EC2 ベースソリューションを除外します。

GT-Scan2 は S3 で提供、サーバー側からの処理なしに静的ウェブアプリを実行できるようにします。JavaScript フレームワークを使用して、データベースから API Gateway を使い API コール経由で動的コンテンツ (ジョブの結果やパラメーター) を取得します (DynamoDB)

ユーザーがジョブを送信すると、GT-Scan2 が API コール経由で DynamoDB テーブルにアイテムとしてジョブパラメーターを挿入します。これにより、ボトルネックを作らず自由でスケーラブルなソリューションを可能にします。このデータベースエントリは最初の Lambda 関数をアクティブ化し、ユーザー専用の DNA 配列 (ユーザーの送信時に自動取得) で推定上の CRISPR ターゲットをすべて検索します。CRISPR ターゲット候補の位置には一定のルールがあり、数秒で完了する 2 つめの DynamoDB テーブルに挿入される正規表現を使用して簡単に探すことができます。Lambda ベースのマイクロサービスを活用 ターゲット候補はすべて効率的なマッチングツールの Bowtie を使用してそのオフターゲットリスクを評価する必要があります。Bowtie では 30 億の文字列から形成されるゲノム配列の簡約表示のみが必要となるので、こうしたインデックスファイルのサイズが各 Lambda インスタンスのストレージ制限を超えることはありません。開発時に CSIRO チームをサポートした Adrian White (リサーチ & テクニカルコンピューティング、APAC) は「GT-Scan2 はゲノムを小さいブロックに分けて Lambada の仕様に合わせられるようにします」と述べています。一般的に GT-Scan2 は 500-1000 件の Lambda 関数をアクティブ化し、同時に DynamoDB にある推定上の異なるターゲットスコアも更新するようになっています。このプロセスの実行中にフロントエンドは API Gateway 経由でこのテーブルをポーリングし、結果が入り次第ウェブページを更新、サーバー側からのコンピューティングを不要にしています。「AWS の Lambda のおかげで、医療ゲノムエンジニアリングのアプリケーションをサポートでき、今後の流れに対応できるソフトウェアパッケージ開発に優れたフレームワークを使用することができました」と Dr. Bauer は語っています。「特に様々なジャンルの複雑な面に対応するために、さらに多くの Lambda 関数をランタイムで瞬時に起動しスケールできる点に感心しています。」Dr. Bauer は、使用期間のみのストレージ料金を支払うことや、ウェブサイトは動的コンテンツを含む静的ページで Angular 2 や API Gateway を通じて更新されるためにウェブサーバーのリソースとジョブが競合しないことや、コンピュートインスタンスの維持が不要 (OS のセキュリティパッチ) なことも、その他のメリットであると述べています。「Lambda が優れいているポイントの 1 つは、ユーザーが特定の CRISPR アプリケーションに適した別の機械学習アルゴリズムに簡単に切り替えられることです」と Dr. Wilson は述べています。

GT-Scan2 チーム – Denis Bauer、Laurence Wilson、Aidan O’Brien (左から)

「コンピュテーショナルゲノムエンジニアリングコミュニティは AWS Lambda テクノロジーを早期に導入したコミュニティの 1 つです」と Dr. Mia Champion (Scientific Computing テクニカルビジネス開発マネージャー) は言います。「GT-Scan2 が APCI Gateway や DynamoDB を使用することは、スケーラビリティを確保する上ですばらしいソリューションと言えます。エピジェネティクスをうまく使う方法も、CRISPR 検索を実施するために Lambda を使用する最近の他のアプリケーションとは一線を画しているポイントだと思います。医療アプリケーションで GT-Scan2 が導入されていくことを楽しみにしています。」