Amazon Web Services ブログ

ヘルスデータのための AWS Entity Resolution

はじめに

本ブログ記事は、AWS Entity Resolution を利用することにより、ヘルスケア分野における記録のリンクと照合の課題にどのように取り組むことができるかを示し、継続的なエンティティ解決のワークフローにて患者の 360 度ビューを実現する方法の概要を説明します。また、AWS HealthLake が、ヘルスケアのお客様のデータを安全に保存、変換、管理する上で、どのように役立つかも説明します。本ブログ記事を最後まで読めば、ヘルスケア業界におけるエンティティ解決のための準備が整うはずです。

医療機関は、それぞれが独自の形式とモダリティを持つ大量のデータと多様なデータソースを管理する必要がますます高まっています。ヘルスケアシステム全体において、データ入力と保存方法が異なるため、異なる患者や医療従事者の入力、研究対象、研究レポート、診断レポートと検査、請求と請求書情報など、エンティティの不整合が発生する可能性があります。誤った請求が誤った支払いにつながる可能性がある医療において、エンティティの全体像を把握することは、患者の顧客体験向上のために重要です。

たとえば、情報の統合が不十分で患者の記録に不整合がある場合、実際には受けていないサービスの請求を誤って患者にしてしまったり、実際に受けたサービスの請求がされていなかったり、といった請求ミスにつながる可能性があります。このようなミスは、患者の混乱や不満を引き起こし、負担を増やし、ヘルスケアシステム全体に悪影響を及ぼします。正確で徹底したデータ管理は、効果的な患者ケアが行えるだけでなく、正しい請求や明確なコミュニケーションが重要な医療において、良好な顧客体験実現のために重要です。

ヘルスケア分野において、様々なデータソース間で正確な患者記録の照合を行うために、記録のリンクと照合は重要です。エンティティ解決の実装は、患者照合の改善などのメリットを医療機関にもたらします。データの一貫性が向上し、請求プロセスが合理化されることにより、請求ミスが減少し、システム間の相互運用性が強化され、プライバシー規制への準拠が容易になります。患者データの正確性を維持することで、エンティティ解決は最終的に、ヘルスケアの保険者と医療従事者が、患者ケアの向上、運用コストの最適化、規制遵守の強化を、統一的なアプローチで実現できるようになります。

ヘルスデータの記録精度の課題

ヘルスケアとライフサイエンス (HCLS) の組織が、関連性のある異なる記録のリンクおよび照合を困難にしている、いくつかの課題は以下の通りです。

データの断片化: ヘルスケアには、患者、医療従事者、研究対象と研究レポート、診断レポートと検査、請求と請求書など、多数のエンティティが含まれます。これらのエンティティは、電子カルテ (EHR)、請求プラットフォーム、保険データベース、診断研究など、異なるシステムに分散された大量のデータを生成します。これらの多様なデータソースは、しばしば異なる識別方法や一貫性のないデータ入力を行なっているため、エンティティ記録の不一致や誤りが発生します。この断片化は、様々なエンティティの包括的かつ正確なプロファイルの作成を妨げます。

データ流動性: 現代のヘルスケアにおいて、患者は頻繁に異なる医療機関からケアを求めたり、新しい地域に移住したり、保険プランを変更したりします。これらの変化は、HCLS 組織がヘルスケアシステムとのやり取りにおいて、一貫性のある正確な患者記録を維持するうえでの課題となります。記録が古くなったり断片化したりすることで、患者ケアの質、データの一致、正確性に影響を与えます。

データ品質: データの不正確さは、様々な医療機関で広く共通の課題です。つづりの誤り、入力基準のバラつき、古い情報、不完全な記録などの問題があると、請求データの正確性に大きな影響を及ぼします。こうした不正確さは誤った請求や見落とされた請求などのエラーを引き起こし、患者の不満や医療機関の財務的な齟齬を招くことがあります。請求データの正確性を確保できるかどうかは、財務運営や患者満足度に直接影響するため、最も医療機関が直面する重要かつ困難な課題の 1 つです。

データの相互運用性: ヘルスケアシステムは多様な技術を使用することが多く、それぞれに独自の標準があるため、相互運用性を実現し、プライバシーを維持することは大きな課題です。これらの異なるシステムは、一意の識別子やコード化システムを使用する可能性があり、様々なヘルスケアプラットフォームや組織間において、情報を正確に相互参照するプロセスを複雑にしています。この複雑さは技術的な困難だけでなく、コンプライアンスとプライバシーの課題も発生させます。患者データのセキュリティを保ちつつ、異なるシステム間でアクセス可能かつ正確な状態を維持するためには、慎重にバランスをとる必要があります。医療機関は、米国 HIPAA のような厳格なデータ保護規制を順守する必要があり、これらは患者情報の保護を義務付けています。HIPAA 対応には、シームレスなデータ統合を保証する技術的ソリューションと、機密性を維持し法的基準を順守するための堅牢なプライバシーポリシーの両方が含まれます。

AWS Entity Resolution

AWS Entity Resolution は、柔軟に設定できるワークフローを作成し、わずか数分でセットアップでき、企業が複数のアプリケーション、システム、データストアに存在する関連記録を容易に照合、リンク、強化できる HIPAA 適格サービスです。

柔軟なデータ準備: このサービスは、Amazon Simple Storage Service (Amazon S3) に格納されたデータを AWS Glue テーブルとして読み込むなど、柔軟にカスタマイズ可能なデータプレパレーション (データ準備) を提供します。このサービスには、ソース間のデータをクレンジングおよび整合性の取れたものにできる、データ正規化機能が組み込まれています。ユーザーはデータ入力とスキーママッピングを指定できるので、照合ワークフローが特定の要件と整合性が取れていることを確認できます。

データ保護: AWS Entity Resolution は、すべてのデータ入力に対するハッシュ化や暗号化など、堅牢なデータ保護機能を提供します。これにより、ユーザーは照合プロセス中にデータが保護されたままであることを確認できます。

データの地域化: AWS Entity Resolution におけるデータの地域化サポートは、HLCS 組織にとって極めて重要です。たとえば、機密性の高い遺伝情報が、それが存在する同じ地域内で正確にリンクされ、照合されていることを確認できます。これによりデータの主権が守られ、地域の医療情報規制に準拠するとともに、データの整合性とプライバシーを保護しつつ、安全にグローバルな遺伝子共同研究を行うことが容易に可能となります。

高度で構成可能な照合技術: このサービスは、ルールベースの照合、機械学習 (ML) ベースの照合、データサービスプロバイダ主導の照合など、高度な照合技術を提供します。これにより、関連するヘルスケア情報、研究、検査、診断、プロシージャコード、施設データを正確にリンク、強化できます。この照合技術の柔軟性と選択肢により、医療機関は様々なデータシナリオに対応することが可能になります。

  • すぐに使えるルールベースの照合: この照合技術には、入力フィールドに基づく一致を見つけるために、AWS Management ConsoleAWS Command Line Interface (AWS CLI) にて、すぐに使えるルールセットが含まれます。医療機関は、独自のニーズに合わせるためにこれらのルールを微調整し、入力フィールドに基づいて関連記録を見つけるプロセスを簡素化でき、照合精度がニーズを確実に満たすことが可能となります。
  • ML を活用した照合: 事前に学習された ML モデルを使用して、複数のデータ入力間で一致を見つけることが可能です。照合品質の信頼度スコアを提供し、それを使って患者記録を照合することができます。
  • データサービスプロバイダ主導の照合: このワークフローは、数回クリックするだけで、信頼できるデータサービスプロバイダのデータセットと ID に記録をリンク、強化するすることが可能です。

手動処理および自動処理: ユーザーは、新しいデータが時間とともに到着する際、エンティティを最新の状態に保つために、手動の一括処理または自動の増分処理を通じて、ルールベースの照合を開始することができます。

準リアルタイム検索: このサービスは、ルールベースの照合を準リアルタイムに行う検索機能を提供します。これにより、ユーザーは既存の一致IDを同期的に取得できるため、データ取得の効率が向上します。

ヘルスデータを用いたAWS Entity Resolutionの使用例

AWS Entity Resolution は、ヘルスケアおよびライフサイエンスのユーザが、次のような新しいユースケースを実現できるよう支援します。

患者記録の連携: AWS Entity Resolution を利用することで、医療機関は、診療予約、検査結果、保険請求などのイベントを一意の一致IDにリンクでき、患者とのやり取りを統一されたビューで確立できます。これにより、様々な医療機関、保険会社、調剤サービス間で患者データの追跡が容易になり、患者記録と医療業務の全体的な正確性が向上します。

正確かつ継続的な患者の治療過程: AWS Entity Resolution を使用することで、ヘルスケアの保険者と医療従事者は、患者のイベントと入力の360度継続マップを構築できます。目標は、異なるデータセットをリンクすることによって患者ケアを強化することです。たとえば、大学病院ネットワークのメンバー機関からデータが提供される場合、このサービスにより容易に照合技術を利用できます。その結果、大学病院ネットワークは、各患者の統合された包括的な記録を作成できます。この改善された保存記録により、より正確な診断、健康管理、患者ケアの調整を行うことができます。最終的には、全体的な患者の治療過程を改善します。

最適化された臨床開発と研究記録: 新しい医薬品やアウトカムベースの研究は、正確にリンクされたデータ記録が必要です。科学者はこれらのデータを利用して研究を設計し、分析を実行、洞察を引き出します。これにより、最終的には臨床研究のアプローチを改善したり、臨床試験の被験者募集のためのコホート全体に共通する傾向を特定したりすることが可能となります。AWS Entity Resolution は、異なるデータソースを正確にリンクするのに役立つ、様々な照合技術を提供します。これにより、研究データの統一的な照会が促進され、データの不一致や冗長性を最小限に抑えながら、研究結果の信頼性を高めるのに役立ちます。たとえば、研究者や臨床医は、患者の反応をより効果的に追跡、分析、予測できるため、個別化医療の開発や治療戦略の最適化に貢献できます。

リンクされた医薬品コード: 製薬研究所、バイオテクノロジー企業、臨床研究機関、およびそれぞれのサプライチェーンは、複数の異なる分類、識別子、コードを利用して、医薬品と有効成分を一意に識別します。これらは、地域、国、標準化組織 (ATC、NDC、SNOMED、DIN) によって異なります。AWS Entity Resolution を使用することで、組織は識別子を含むデータセットをマップしてリンク、一意なエンティティに変換することができ、分析と研究を実行、サプライチェーンを最適化することができます。

相互運用性に関する義務

米国のヘルスケアセクターは変革期を迎えており、EHR ベンダー、医療機関、医療保険制度を含む様々な関係者間で、Fast Healthcare Interoperability Resources (FHIR) データ形式を採用するルールが形成されています。メディケアおよびメディケイドサービスセンター (CMS) の相互運用と患者アクセスに関する最終規則や、今後の法律規制の枠組みは、より広範で包括的なヘルスデータ相互運用の標準化推進を後押ししています。

これは医療保険者だけでなく、各々の専門的な規制ガイドラインに対応している医療制度と EHR ベンダーにも影響が及びます。これらの規制は、氏名、電話番号、住所など、患者照合に不可欠な重要データ要素へのアクセス支援をますます推奨しています。この新たな状況は、FHIR の採用が技術的な移行だけでなく、多面的なヘルスケアエコシステム全体での合理化された、安全な標準化データへのアクセス性を確保するための包括的な移行であることも示しています。

AWS HealthLake

AWS HealthLake などのサービスを使用することにより、ヘルスケアシステムが必要な相互運用性要件を満たすのに役立ちます。HealthLake の FHIR ベース API を使用することで、医療機関は、臨床記録や患者の記録などの大量のヘルスデータを、オンプレミスのシステムからセキュアかつコンプライアンスに準拠した、従量課金制のクラウドサービスに簡単にインポートできます。HealthLake を活用することで、医療システムは医療上の要求を満たすだけでなく、組み込まれた自然言語処理 (NLP) モデルを使用して、顧客が必要とする医療情報を理解して抽出します。そして、安全かつ効率的な方法でイノベーションを推進し、患者ケアを改善させることができます。

ヘルスデータの容易な取り込み: ヘルスケアシステムは、臨床ノート、検査報告書、保険請求、その他のヘルスデータを S3 バケットに効率的にインポートできます。一括インポート機能により、後続のアプリケーションとワークフローのデータ取得が簡素化されます。

FHIR REST API 操作: AWS HealthLake は FHIR REST API オペレーションをサポートしており、ヘルスケアシステムはデータストア上で CRUD オペレーションを実行できます。これには FHIR 検索を実行し、効率的なデータ取得を可能にする機能が含まれます。

安全な HIPAA 適格ストレージ: AWS HealthLake は、データが安全な HIPAA 適格手法にて AWS クラウドに保存されることを保証しています。FHIR R4 標準形式でデータの問い合わせ、および構造化できるよう、FHIR 形式に準拠しています。

非構造化データの変換: AWS HealthLake には、Amazon Comprehend Medical を使用した統合医療自然言語処理 (NLP) 機能を備えています。これにより、生の医療テキストデータが構造化情報に変換され、医療テキストからエンティティ、エンティティ関係、エンティティ特性が抽出されます。次に、このデータは新しいリソースタイプに整理され、データへのアクセス性が向上します。

用例: FHIR 患者エンティティの解決

このセクションでは、AWS HealthLake に保存されている患者記録のエンティティ解決を実行するための AWS Entity Resolution を活用したソリューションを紹介します。AWS HealthLake 内のエンティティ解決の実装は、データストア全体にわたりデータ整合性を確保する上で重要な基盤として機能します。この文脈における「エンティティ」は、単一の患者、医療従事者、組織、医療施設を指します。エンティティ解決は、患者や医療従事者などの同じ実世界のオブジェクトに関連する AWS HealthLake 内の複数の記録を判断する重要なプロセスです。たとえば、ヘルスケアのお客様からは、複数の内部システムや複数の組織に由来するデータソース間で患者を照合することには課題があると聞いています。

このプロジェクトでは、AWS Entity Resolution を使用し、ML ベースの照合アルゴリズムを採用、異なる患者記録を正確に識別およびリンクし、信頼度スコアを備えた包括的な患者プロファイルを確立できる AWS HealthLake の機能を強化することにより、この課題に対処しています。これにより、正確かつ一貫性のあるヘルスケアデータ管理が可能になります。このプロセスは、マスターデータ管理 (MDM) 、エンタープライズマスター患者インデックス (EMPI) として知られる、より広範かつ必要なステップの 1 つです。

アーキテクチャ

次の図は、この患者エンティティ解決ソリューションのアーキテクチャを示しています。このソリューションは AWS ネイティブサービスを活用、AWS Well-Architected フレームワークに準拠し、セキュリティ、信頼性、パフォーマンス効率、コスト最適化などの主要な側面にわたり堅牢なアーキテクチャを確保しています。


図1: アーキテクチャ図

このソリューションには、次のハイレベルなステップとAWS ネイティブサービスが含まれています:

  • Amazon Athena の SQL クエリを使用して、AWS HealthLake データストアから患者識別情報を取得します。

Amazon Athena クエリは、HealthLake データストアが最初に起動されるときに自動的に作成される AWS Lake Formation リソースリンクデータベースに対して実行されます。

  • クエリの結果セットは、CSV ファイルとして S3 バケットに保存されます。クエリに使用される患者の FHIR リソースの識別子属性には、HealthLake 患者リソース ID、名前、住所、電話番号、生年月日、性別などの属性が含まれる可能性があります。
  • AWS Entity Resolution に患者データセットを指定します。

前のステップで患者データセットが作成されたら、AWS Glue クローラーを使用してデータセットをクロールし、AWS Glue Data Catalog テーブルを生成します。これにより、このテーブルを AWS Entity Resolution サービスへ取り込む準備が整います。

  • AWS Entity Resolution を使用して ML 主導の照合を生成します。

このソリューションでは、AWS Entity Resolution のスキーママッピングと照合ワークフローが作成され、入力患者データを照合する方法と照合結果を書き込む場所が定義されます。デフォルトでは、このソリューションは入力された患者データセット全体で一致を見つけるために、事前に構成された 機械学習ベースの照合技術を使用します。AWS Lambda 関数が照合ワークフローのジョブをトリガーし、AWS Entity Resolution により生成された一致 ID と信頼度スコアを含む結果を別の S3 バケットに書き込みます。照合ワークフローで、独自の照合ルールを定義し、エンティティ解決の要件を満たす完全一致を見つけるために、ルールベースの照合技術を使用することもできます。

  • AWS Entity Resolution の 一致ID を AWS HealthLake の患者 FHIR リソースに挿入します。

AWS Entity Resolution が一致する患者記録を特定すると、ソリューションは Lambda 関数を使用してAWS Entity Resolution の結果を読み取り、解析します。その後、信頼度スコアと関連付けられた AWS Entity Resolution で生成された一致IDを、患者の FHIR リソースの新しい識別子属性に挿入します。これにより、AWS HealthLake データストア全体の一致する患者記録を簡単に識別してリンクできるようになります。

前提条件

このソリューションをデプロイする前に、AWS CloudFormation テンプレートの入力パラメータとして使用する次の情報が必要です。

  • 患者エンティティ解決を実行する AWS HealthLake データストアのデータストアID
  • 次の図に示すように、AWS HealthLake データストアにリンクされているAWS Lake Formation データベースのデータベース名と共有リソース所有者ID ( またはカタログ ID)

図2: Lake Formation データベース名と共有リソース所有者 ID を特定するスクリーンショット

導入

このソリューションを実装するには、この AWS CloudFormation テンプレート をデプロイします。

このテンプレートの出力には、ahl-entity-resolution-state-machine という名前の AWS Step Functions が含まれます。このステートマシンをオンデマンドで実行することで、ソリューションを実行し、AWS HealthLake データストアの患者エンティティ解決を実行できます。このテンプレートは、毎夜 10 時のように、ステートマシンを定期的に自動トリガーする AWS EventBridge スケジューラーも作成します。このスケジューラーのスケジュールをビジネスニーズにあわせて変更することで、ソリューションの実行頻度を調整できます。

結果の検証

このソリューションによって識別された一致した患者記録を確認するには、次のいずれかを実行します:

  • Step Function にリンクされた AWS CloudWatch ロググループに移動してください。このロググループには、各ステップの入力と出力を含む、Step Function の実行に関する詳細な情報が含まれています。
  • Step Function の実行ページに移動し、ステートマシンの最後のステップの出力を確認してください。ステートマシンの最後のステップは、一致した患者リソース ID (source_id) と AWS Entity Resolution が返した match_id を含む一致結果を生成します。

図3: ステップ関数の実行出力のスクリーンショット

AWS Entity Resolution の照合出力から患者リソース ID を特定したら、以前に特定した患者リソース ID を使用して AWS HealthLake データストアで患者リソースをクエリできます。match_id が識別子属性値として示されている AWS Entity Resolution から、患者に新しい識別子属性が作成されたことがわかります。

次の図に示すように、AWS Entity Resolution から返される一致 ID は、照合ワークフローの設定や患者記録が大幅に更新されない限り、複数のワークフロー実行にわたり、ソース患者記録に対して同じままです。これらの一致 IDは、HealthLake データストア内の内部患者記録を相互にリンク付けするためのものであり、HealthLake 外の後続システムまたは外部システムで識別子として使用しないでください。


図4: エンティティ解決の一致 ID を示す HealthLake クエリのスクリーンショット

また、次の図に示すように、サンプルの Amazon QuickSight ダッシュボードを構築し、HealthLake データストアにある複数の患者記録が、このソリューションによって HealthLake に挿入された新しい識別子属性に基づき、AWS Entity Resolution によって返された同一の match_id に合致していることを確認しました。


図5: 同じAWS Entity Resolution 一致 ID によって照合された複数の患者記録を示す QuickSight ダッシュボードのサンプル

このソリューションは、HealthLake における患者エンティティ解決のベースラインを提供します。これは柔軟で拡張性のあるフレームワークで、これをベースに独自のアプリケーションやワークロードを構築できます。このソリューションを拡張または変更して、固有のヘルスケアエンティティ解決の要件を満たすことができます。

クリーンアップ

本ブログ記事の例に関連する不要なインフラストラクチャコストを避けるために、CloudFormation スタックと、前提条件として追加した他のすべての手動リソースを必ず削除してください。

次のステップ

この変革の旅に乗り出すには、AWS Entity ResolutionAWS HealthLake に関するドキュメント、ウェビナー、ビデオ、その他のブログ記事などのリソースを探索してください。AWS HealthLake は、高度な小児科医療など、他のヘルスケア分析ニーズにも対応できます。その実現方法を説明したブログ記事「 Amazon HealthLake を使用したスケーラブルな FHIR ベースのデータ分析による小児科医療の進歩」や「AWS Entity Resolution: 複数のアプリケーションとデータストアからの関連記録を照合してリンクする」を参照してください。実践的アプローチについては、AWS Entity ResolutionAWS HealthLakeAWS HealthLake Patient Matchingのワークショップを確認してください。

まとめ: AWS Entity Resolution および AWS HealthLake

AWS Entity Resolution と AWS HealthLake は、シームレスに統合することで、ヘルスケアデータ内のエンティティの管理、構造化、正確な解決を包括的に実現するソリューションを医療機関に提供できます。この統合により、データの正確性が向上し、患者ケアの連携が改善され、規制へのコンプライアンスが確保され、ヘルスケア企業が研究、イノベーション、高品質な患者ケアの提供に効果的にデータを活用できるよう後押しします。

翻訳はソリューションアーキテクトの松浦が担当しました。原文はこちらです。

Tyler Replogle

Tyler Replogle

Tyler Replogle は、AWS で世界中の公共部門を担当するシニアソリューションアーキテクト兼テクニカルデータベースリーダーです。顧客やパートナーがエンドミッションソリューションを AWS で実行できるように支援しています。彼は建築が好きで、レゴ、マインクラフト、コーディングを使った建築を通じて、3 人の娘たちとつながる方法を見つけました。

Kai Xu

Kai Xu

Kai Xu – Kai は AWS のシニアソリューションアーキテクトで、学術医療センターのお客様をサポートしています。Kai はヘルスケア業界で 15 年以上の経験があり、情報セキュリティ、コンプライアンス、クラウド移行に情熱を注いでいます。自由時間には、読書、サッカーゲーム、そして子供たちとの楽しい時間を楽しんでいます。