Amazon Web Services ブログ
3M Health Information Systems がヘルスケア分析プラットフォームを構築するために Amazon Redshift を選択した理由
3M Health Care の事業である 3M Health Information Systems (HIS) は、医療従事者、患者、および政府機関と協力して変化するヘルスケアの展望を予測してナビゲートしています。3M は、顧客が量から価値ベースの医療に移行するのを支援する医療業績測定および管理ソリューション、分析、および戦略的サービスを提供することで、数百万ドルを節約し、プロバイダーの業績を向上させ、質の高い医療を提供できるようにしています。3M の革新的なソフトウェアは、コンピュータ支援コーディング、臨床文書の改善、パフォーマンスの監視、品質結果報告、および用語集管理の基準を引き上げるように設計されています。
3M HIS では、オンプレミスまたは他のクラウドホスティングプロバイダーにインストールされているアプリケーションをアマゾン ウェブ サービス (AWS) に移行するための継続的なイニシアチブがありました。3M HIS は、コンピューティング、ストレージ、およびネットワークの弾力性を活かすために AWS への移行を開始しました。当社は今後数年間に予想される事業の成長をサポートするために拡張する一方で、顧客価値の提供に注力するのに役立つ確固たる基盤を構築したいと考えていました。3M HIS はすでに本質的に複雑な多くの顧客の医療データを処理していたため、分析や機械学習に役立つ形式にデータを変換する多大な作業が必要でした。
多くのソリューションを検討した結果、3M HIS は適切なデータウェアハウスソリューションとして Amazon Redshift を選択しました。当社は、カラムストレージを使用して I/O を最小限に抑え、高いデータ圧縮率を提供し、高速パフォーマンスを提供する、高速で完全マネージド型のペタバイト規模のデータウェアハウスソリューションである Amazon Redshift が当社のニーズに合致すると結論付けました。開発環境ですぐにクラスターを作り、ディメンションモデルを作成し、データをロードして、ユーザーデータのベンチマークとテストを実行できるようにしました。さまざまなソースから Amazon Redshift にデータを処理してロードするために、抽出、変換、ロード (ETL) ツールを使用しました。
多くのソリューションを検討した結果、3M HIS は適切なデータウェアハウスソリューションとして Amazon Redshift を選択しました。当社は、カラムストレージを使用して I/O を最小限に抑え、高いデータ圧縮率を提供し、高速パフォーマンスを提供する、高速で完全マネージド型のペタバイト規模のデータウェアハウスソリューションである Amazon Redshift が当社のニーズに合致すると結論付けました。開発環境ですぐにクラスターを作り、ディメンションモデルを作成し、データをロードして、ユーザーデータのベンチマークとテストを実行できるようにしました。さまざまなソースから Amazon Redshift にデータを処理してロードするために、抽出、変換、ロード (ETL) ツールを使用しました。
3M のレガシーの実装
3M HIS はこのデータウェアハウスを介して大量のデータを処理します。当社は何百万もの手続きコード、診断コード、およびそれらの各コードに関連するすべてのメタデータから成るヘルスケアデータを顧客から取り込んでいます。レガシープロセスは、2 週間に 1 回、このデータをデータウェアハウスにロードしました。
レポートについては、毎週 1000 を超える顧客に 25 の静的レポートと 6 つの静的 HTML レポートを発行しました。ビジネスインテリジェンスレポートを提供するために、レガシーリレーショナルデータベースに分析キューブを作成し、それらのキューブからレポートを提供しました。
処理するデータ量が増え続ける中で、SLA を満たすことは難題でした。SQL データベースを、処理対象のデータに基づいて自動スケーリングしてパフォーマンスを向上させる、最新のアーキテクチャとツールに置き換える時期が来ました。
3M が Amazon Redshift でデータウェアハウスを近代化した方法
新しいソリューションを選択する際は、まず、ほぼリアルタイムでデータをロードできることを確認する必要がありました。次に、データウェアハウスに格納されるデータ量が既存のソリューションの 10 倍になるため、ソリューションのスケーラビリティを確保する必要がありました。さらに、24 時間 365 日稼働する ETL 処理に影響を与えずに、大量のクエリに関するレポートを妥当な時間で提供できるようにする必要がありました。最後に、ソリューション全体の一部である他の分析サービスと統合できる、費用対効果の高いデータウェアハウスが必要でした。
Amazon Redshift や Snowflake などのデータウェアハウスを評価しました。Amazon Redshift を選択したのは、それが前述の基準を満たし、当社が好むネイティブの AWS Managed Services と合わせることができたためです。それだけではなく、Amazon Redshift を選択したのは、それが経済的に持続可能な方法でビジネスの成長と歩調を合わせることができる将来のソリューションにもなるだろうからです。
レポート作成ツールを構築するために、マルチテラバイトのデータウェアハウスを Amazon Redshift に移行しました。データは ETL ワークフローを介して Amazon S3 バケットに処理された後、Amazon Redshift に一括コピーしました。スクリプトとユーティリティのコレクションである AWS が提供する GitHub リポジトリは、当社がクラスターをセットアップし、Amazon Redshift から可能な限り最高のパフォーマンスを引き出すのに役立ちました。
実装中に学んだ主要レッスン
初期開発中に、Amazon RDS ステージングインスタンスから Amazon Redshift にデータをロードしようとしていたため、Amazon Redshift テーブルにデータをロードするという課題に直面しました。調査を何度か行った結果、Amazon S3 バケットからの一括ロードが、大量のデータを Amazon Redshift テーブルにロードするためのベストプラクティスであることがわかりました。
2 つ目の課題は、Amazon Redshift VACUUM および ANALYZE オペレーションが ETL パイプラインを遅らせていたことです。その原因は、これらのオペレーションが ETL プロセスに組み込まれていたためでした。ETL 処理の一環として、Amazon Redshift テーブルへの頻繁なデータロードと多数の DELETE 操作を実行しました。これら 2 つの懸念は、VACUUM 操作と ANALYZE 操作を頻繁に実行しなければならず、その結果、操作の間テーブルがロックされ、ETL プロセスと競合することになりました。すべてのロードが完了した後にプロセスを起動したことで、発生していたパフォーマンスの問題を解消するのを助けました。将来的にこのような問題が発生するのを防ぐため、VACUUM および ANALYZE を最近自動化しました。
最後の課題は、以前は Analysis Services のキューブレイヤーにあったウィンドウ機能を使用する方法を見つけることでした。これは今では、Amazon Redshift の機能が実現しているものです。ただし、必要なウィンドウ機能のほとんどは Amazon Redshift に組み込まれているため、既存の機能を Amazon Redshift に移植して同じ結果を得ることができます。
移植中は、Amazon Redshift の包括的なベストプラクティスガイドと調整手法を使用しました。これらの結果、最適なパフォーマンスを得るために Amazon Redshift クラスターをセットアップするのに役立ちました。
新しい実装のフロー図
更新された実装の利点
レガシーソリューションでは、実装が複雑になり、データベースに組み込んでほぼリアルタイムでレポートを作成するために必要な新しいデータのデータ量の増加をサポートすることは困難でした。データに関して実行されているレポートは、SLA の最初の要件から徐々にずれていました。Amazon Redshift を使用して、手作業によるメンテナンス、ソリューションの手入れと提供の必要性を少なくして、これらの問題を解決するよう取り組んでいます。まず、Amazon Redshift は大量のデータを長期間保存できるポテンシャルがあります。次に、必要に応じてクラスターにノードを追加するのが簡単で、Elastic Resize 機能を使用すると数分で完了できます。同様に、コスト重視の問題がある場合は、ノードを縮小することができます。さらに、Amazon Redshift は、以前のソリューションよりも、グループ化された大量のデータに対するコンピューティングアナリティクスのサポートも強化しています。多くの場合、最近のデータと過去のデータを比較して検討する必要があります。場合によっては、季節性を排除するため 1 年または 2 年以上の履歴データが必要な場合があり、Amazon Redshift がこの手の操作でよりスケーラブルなソリューションであることがわかりました。
結論
3M HIS では、最初から正確な健康情報と臨床情報で、病気を治療するシステムから健康と福祉を向上させるシステムへとヘルスケアを変革しています。データ管理や病理学に始まり、払い戻しやリスク調整まで、3M の約 40 年にわたる臨床知識により、継続的なケア全体で成果を向上させる革新的なソリューションを見つけるための扉が医療従事者や患者に開かれました。当社は、AWS による 3M の分析機能を活用して、コストを削減しながら健康システムと健康計画のパフォーマンスを向上させるだけでなく、正確で手続に則った払い戻しが確実に行われるよう顧客をサポートします。
著者について
Dhanraj Shriyan は、3M Health Information Systems 社のエンタープライズデータアーキテクトで、シカゴのノースウェスタン大学で予測分析の修士号を取得しています。彼は、顧客がデータを探求し、貴重な洞察を得て、顧客のニーズに応じて適切なデータベース技術を使用してスケーラブルなソリューションを実装するのをサポートするのが大好きです。彼は数年に渡ってクラウドとオンプレミスで大規模なデータウェアハウスのビジネスインテリジェンスソリューションを構築してきた経験があります。現在、AWS のグラフ技術と Lake 形成サービスを探求しています。