Discover が AWS を使用して分析とインサイトを得るまでの時間を短縮
2020 年
Discover Financial Services は、良好な信用の確立、大学教育のための支払い、借金の整理など、顧客が金銭的な目標を達成するのに役立つ銀行および信用商品を提供しています。同社は、その約束を実現し、非常に競争の激しい業界で自社のサービスを差別化するために、社内外のデータと分析を多用しています。「当社には多くの顧客データがあります」と、Discover Financial Services のデータサイエンステクノロジー担当ディレクターである Brandon Harris 氏は述べています。「当社は、お客様により良い体験を継続的に提供するために、そのデータを差別化のための要素として利用する必要があります」
何年にもわたって、Discover のチームやビジネスユニット内で個別の分析プラクティスが生まれました。全部で、12 チームで約 8〜10 のツールセットが考案されました。各プラクティスでは、異なるスキルセットと多様なツールが必要でした。Discover のリーダーシップチームは、これらのプラクティスとチームを統合することで、分析が改善され、組織全体で一貫したツールを生み出すことができると信じていました。
Discover のテクノロジーチームは通常、エンドツーエンドのテクノロジーをコントロールし、独自のデータセンターを管理することを好み、社内で新しいソリューションを構築します。Brandon 氏と同氏のチームは、共通環境である Air9 と呼ばれる内部データサイエンスワークベンチで、会社のデータサイエンティストがコラボレーションすることを可能にする、一元化されたプラットフォームの作成を任されました。
Amazon EFS は、スケーラビリティとコストの点で十分に目的にかなうものです。また、Kubernetes コミュニティによる素晴らしい貢献により、サービスには既にストレージクラスの機能が備わっていました」
Brandon Harris 氏
Discover Financial Services、データサイエンステクノロジー担当ディレクター
クラウドネイティブのデータサイエンスプラットフォームを構築する
Brandon 氏のチームが Air9 について合意した最初の設計原則の 1 つは、多様性における強みでした。「チームとその経験の多様性だけでなく、さまざまなアプローチとツールもです」と Brandon 氏は述べています。「当社は、しっかりと確立された分析コミュニティのために、一般的な何にでも当てはまるようなデータサイエンスに対するアプローチを提供するつもりはありませんでした」
Brandon 氏のチームは、同社が既に使用しているデータサイエンスツールの多くがコンテナ化に自然に適合するものであったため、Kubernetes が Air9 をホストするのに適していると判断しました。専用コンテナを使用すると、ワークロードを分離でき、ユーザーはカスタムパッケージをインストールして、マルチテナント環境では管理が難しい環境に変更を加えることができます。Discover は Amazon Web Services (AWS) の長年のお客様であり、Amazon Simple Storage Service (Amazon S3) のユーザーでもあるため、チームは Amazon Elastic Compute Cloud (Amazon EC2) インスタンスをデプロイすることも決定しました。このアプローチを使用することで、複数の国の 883 人のデータサイエンティストが Amazon EC2 インスタンスのサイズ、タイプ、および数量を選択し、アプリケーションがそのインスタンスをデータセットに自動マウントするように設定できるようになりました。
AWS によるスケーラビリティ、ストレージ、およびコストの改善
フルマネージドのクラウドネイティブファイルストレージを備えた共有ストレージ機能は、Air9 のもう 1 つの重要なコンポーネントでした。「これらのさまざまな環境をすべて稼働している場合、データを保存してコラボレーションするための共通の方法が必要となります」と Brandon 氏は述べています。
しかし、Discover チームがストレージレイヤーの設計を開始したとき、プロジェクトは困難な問題にぶつかりました。「当社の分析チームは、クラウドデータウェアハウスに非常に大きなデータセットをいくつか持っていましたが、チーム間およびチーム全体でデータを共有するメカニズムだけでなく、自らの業務用にローカルストレージを持てるようにするために計画する必要がありました」と Brandon 氏は述べています。「このストレージレイヤーは、とても回復力があり、かつ、時間の経過に合わせて大幅な成長をサポートする必要もありました」
Brandon 氏と同氏のチームは、データサイエンスプラットフォームのストレージレイヤーとしてオープンソースの分散ストレージソリューションを活用しようと試みましたが、その実行と管理はすぐに費用と時間がかかるものとなりました。「独自のストレージプラットフォームの実行に関連する月額コストがコンピューティングコストを上回っているのを目にしたとき、何かがおかしいことがわかりました」と Brandon 氏は述べています。「最終的に、超過コストは分散ストレージのためのレプリケーションファクターに起因していましたが、コストを削減することのトレードオフ、つまりレプリケーションファクターを削減することは、積極的に実行しようと思えるものではありませんでした」
チームは、プラットフォームのコンピューティングの点で Amazon EC2 を使用して成功したため、ストレージのための AWS マネージドサービスを検討し、Amazon Elastic File System (Amazon EFS) をデプロイすることにしました。Brandon 氏は次のように述べています。「Amazon EFS は、スケーラビリティとコストの点で十分に目的にかなうものです。また、Kubernetes コミュニティによる素晴らしい貢献により、サービスには既にストレージクラスの機能が備わっていました。AWS を利用することで、さまざまな種類のデータにさまざまな環境を使用できるようになったため、より機密性の高い種類のデータをより適切に保護できました」
これまで、各チームにはホームディレクトリとチームディレクトリがありました。Amazon EFS を利用することで、同社はデータサイエンスツール、プロジェクト、およびデータセット間で共有アクセスを簡単に提供し、よりシームレスなコラボレーションを実現することができました。長期的なデータアーカイブ機能と Amazon S3 の低いオーバーヘッドコストは、Discover がバックアッププロセスをカスタマイズして、データの 2 つ目のコピーを保管のために利用できるようにすることを可能にしました。
「当社では、そのコラボレーションレイヤーとして Amazon EFS を使用していますが、さまざまなデータセットまたはライフサイクル管理の目的でアーカイブと履歴レイヤーも備えています」と Brandon 氏は述べています。「当社では、特定のデータセットを指定された年数保持する必要があります。Amazon S3 と Amazon S3 Glacier ストレージクラスは、当社のデータサイエンティストによって作成および使用されるすべてのデータをコスト効率よく保存できるようにするのに役立ちました」
コラボレーションとインサイトを得るまでの時間を改善する
現在、Air9 は、Discover のデータサイエンティストが生産性と効率を向上させられるよう、AWS 上の一元化された場所で分析アプリケーションを実行できるようにするほか、構造化データソースと非構造化データソースを活用した共有ストレージ環境でのコラボレーションを可能にしたり、複数のソースからのデータを処理および保存したりできるようにしています。これにより、Discover のデータサイエンティストは、インサイトを得るためにデータをより迅速かつ簡単に分析できます。
以前のデータプラットフォームのアップグレードには数週間を要していました。これは主に、ストレージの制約と、追加のストレージが必要になったときに古いストレージクラスターのサイズを変更して拡張する必要があったことによるものでした。Amazon EFS はこれらすべてをバックグラウンドで実行するため、チームはデータプラットフォームを数時間で更新できるようになりました。このプラットフォームはセルフサービスも可能にし、同僚による利用に影響を与えることなくデータサイエンティストが生産性を維持できるようにします。「当社の以前のオンプレミス環境には、データサイエンティスト間のこれらの会話やインタラクションを促進するメカニズムはありませんでした」と Brandon 氏は述べています。
Brandon 氏の見積りによれば、AWS ソリューションを利用することで、チームはストレージの管理に費やす時間を 90% 削減することができました。また、社内で設計および構築するのではなく、AWS を利用してサービスを管理し、冗長機能を提供することで、Discover はコストを 50〜60% 削減することができました。
これらの変更は、Discover の全体的なデジタルトランスフォーメーションの取り組みを前進させるのにも役立ちます。「これまでは、ユーザーが仕事をするために必要なツールを入手するのに数週間かかっていました」と Brandon 氏は述べています。「今ではそれが数時間で可能であるため、ユーザーはインサイトを収集し、ほぼ即時にお客様に価値を提供し始めることができます」
詳細については、thinkwithwp.com/efs を参照してください。
リファレンスアーキテクチャ
リファレンスアーキテクチャ
Discover Financial Services について
Discover Financial Services は、デジタルバンキングおよび決済サービス企業です。1985 年に設立され、シカゴ北部に本社を置く同社のミッションは、人々がより賢く支出し、債務をより適切に管理し、より多く節約できるようサポートすることです。
AWS の利点
- ストレージ管理の時間を 90% 削減し、コストを 50〜60% 削減できる
- コンピューティングとストレージをオンデマンドでスケールできる
- 共有ストレージにより、データサイエンティストはより多くのコラボレーションを行うことができる
- 無制限のストレージにより、バックアッププロセスをカスタマイズできる
- 数週間ではなく数時間でデータプラットフォームを更新できる
- データサイエンティストがテクノロジーではなくインサイトに集中できる
利用している AWS のサービス
Amazon Elastic File System
Amazon Elastic File System (Amazon EFS) は、AWS クラウドサービスおよびオンプレミスリソースで使用するための、シンプルでスケーラブル、かつ伸縮自在な完全マネージド型の NFS ファイルシステムを提供します。これは、アプリケーションを中断することなくペタバイト規模にオンデマンドでスケールするよう設計されており、ファイルの追加および削除に合わせて自動で拡大および縮小されるため、拡張に合わせた容量のプロビジョニングや管理の必要がなくなります。
Amazon S3
Amazon Simple Storage Service (Amazon S3) は、業界をリードするスケーラビリティ、データ可用性、セキュリティ、およびパフォーマンスを提供するオブジェクトストレージサービスです。
Amazon S3 Glacier と S3 Glacier Deep Archive
Amazon S3 Glacier と S3 Glacier Deep Archive は、安全性と耐久性に優れ、極めて低コストの Amazon S3 クラウドストレージクラスで、データのアーカイブや長期バックアップに使用できます。
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) は、安全でサイズ変更可能なコンピューティング性能をクラウド内で提供するウェブサービスです。ウェブスケールのクラウドコンピューティングをデベロッパーが簡単に利用できるよう設計されています。Amazon EC2 のシンプルなウェブサービスインターフェイスによって、手間を最低限に抑えて、容量を取得および設定できます。
開始方法
あらゆる業界のさまざまな規模の組織が AWS を活用して日々変革し、ミッションを遂行しています。AWS のエキスパートにお問い合わせいただき、今すぐ AWS クラウドジャーニーを開始しましょう。