Amazon Web Services ブログ
ヒッグス粒子を発見した実験で自然界の調査に AWS を使用
同僚の Sanjay Padhi は AWS サイエンティフィックコンピューティングチームの一員です。Sanjay は、重要な科学的発見に役立つコンピューティングリソースを AWS がどのように提供したかに関するゲスト投稿を行いました。
–
Jeff
質量の起源への洞察を提供する上で重要な役割を担うヒッグス粒子 (神の粒子と呼ばれることもある) は、2012 年に、スイスのジュネーブにある CERN の大型ハドロン衝突型加速器 (LHC) で、世界最大の実験装置である ATLAS および CMS により発見されました。この発見の基盤となる理論を提唱した研究者たちは、2013 年ノーベル物理学賞を受賞しています。
フランスとスイスの国境にまたがって地下深くに設置されている LHC は、世界最大 (全周 17 マイル) でこれまでにない高エネルギーの粒子加速器です。これにより、これまで探求してきたいかなる人間の発明よりも小さいスケールで自然界を探ることができます。
実験から生データへ
高エネルギー粒子の衝突により、質量はエネルギーに変換され、その後質量に再変換されて、新しい粒子が作り出されます。この粒子が CMS 検出器で観察されます。この検出器は長さ 69 フィート、幅 49 フィート、高さ 49 フィートで、フランスのセシー村近くにある地下 328 フィートのトンネルに設置されています。CMS からの生データは 1 秒あたり約 1 ペタバイトの割合で 25 ナノ秒毎に記録されます。
CERN Tier 0 データセンターで生データをオンラインおよびオフライン処理した後、そのデータセットは 48 時間以内に世界中の 7 つの大規模な Tier 1 データセンターに配信され、科学者たちがさらに処理および分析できるようになります (世界最大のプロジェクトの 1 つである CMS コラボレーションは、43 か国にある 180 を超える機関や大学からの 3,000 人を超える参加メンバーで構成されています)。
フェルミ研究所での処理
フェルミ研究所は、米国エネルギー省によって運営されている 16 の国立研究所のうちの 1 つです。イリノイ州バタビア市郊外に位置するフェルミ研究所は、CERN の CMS 実験のための Tier 1 データセンターの 1 つとして機能しています。
昨年の LHC の衝突エネルギーの増加に伴い、データ同化、イベントシミュレーション、および大規模なコンピューティングの需要も増加しました。この増加に伴い、必要に応じてリソースを動的にプロビジョニングすることでコスト効率を最大化したい、という要望が生じました。
この問題に対処するため、フェルミ研究所サイエンティフィックコンピューティング部門は 2015 年 6 月に HEP (High Energy Physics) Cloud プロジェクトを立ち上げました。このプロジェクトでは、商用クラウドを含む様々なコンピューティングリソースにアクセスするための共通のインターフェイスを提供する仮想施設の開発が計画されました。HEP Cloud プロジェクトでは、AWS を使用することにより、CMS 実験のためのオンプレミス施設に 58,000 コアを伸縮自在に追加する能力を実証しました。
下の画像は、AWS で実行されたシミュレーションの 1 つを示しています。この画像は、2 つの陽子の衝突がエネルギーを作り出した後、新しい粒子となる様子を示しています。
追加の 58,000 コアはフェルミ研究所の計算能力の 4 倍に相当し、すべて CMS 実験専用にプロビジョニングされて、モンテカルロシミュレーションイベントの生成および再構成を行います。290 万のジョブを使用して 10 日間で 5 億を超えるイベントが完全にシミュレートされました。AWS を使用せずにフェルミ研究所のオンプレミスコンピューティングリソースを使用したら、このジョブを完了するのに 6 週間かかることになります。
このシミュレーションは、著名な高エネルギー物理学国際会議の 1 つである Recontres de Moriond の準備のために行われました。世界中の物理学者が、このようなシミュレーションを使用して詳しく自然を調査し、各国から会議に参加した科学者と調査結果を共有します。
HEP Cloud で資金を節約する
HEP Cloud プロジェクトの目的は、計算処理のコストを最小化することです。AWS Cloud Credit for Research では、研究開発とデモンストレーションの優れた取り組みに対して表彰を行っています。
HEP Cloud の意思決定エンジンは施設の頭脳となるもので、いくつかの役割があります。Amazon のスポットチームによって提供されるツールや技術を使用して EC2 Spot Market の価格の変動を監視し、HTCondor を使用して Amazon EC2 インスタンスを初期化し、Amazon Route 53 を使用してインスタンスの DNS 名を追跡し、コードとしてのインフラストラクチャのために AWS CloudFormation テンプレートを使用します。
成功へ至る道の途中で、プロジェクトチームは、Amazon S3 と他のリソースに関する設定の微調整から使用の最適化まで、いくつかの課題を克服しなければなりませんでした。例えば、ストレージのコストやデータアクセスのレイテンシーを最小化するために、複数の AWS リージョンをまたいで補助データを配信するための戦略を考案しました。
AWS への自動スケーリング
下の図は、AWS のスポットインスタンスを使用して、フェルミ研究所のコンピューティング施設を AWS クラウドに伸縮自在かつ自動的に拡張し、CMS ワークフローに使用する様子を示しています。リソースのモニタリングには、Grafana から提供されているオープンソースソフトウェアを HEP Cloud によってカスタマイズして使用しました。
Panagiotis Spentzouris 氏 (フェルミ研究所サイエンティフィックコンピューティング部門責任者) は次のように語りました。
現代の HEP 実験では不規則なサイクルで大量のコンピューティングリソースが必要になるので、プログラムの成功には需要を満たすようリソースを速やかに拡張、収縮できるコンピューティング施設が不可欠です。この目標を達成するために重要な要因は商用クラウドを使用することであり、HEP Cloud により CMS 実験のワークロードを AWS で実行した今回の試みは、このアプローチの価値を実証する上で大きな成功を収めました。
物理学の最先端の調査に AWS が貢献している様子をご覧いただけたのではないかと思います。
– Sanjay Padhi 博士、AWS サイエンティフィックコンピューティング