Discover 使用 AWS 加快分析和產生洞察的時間
2020
Discover Financial Services 提供銀行和信貸產品,以協助客戶實現財務目標,例如建立良好的信用,支付大學學費,以及合併債務。該公司在很大程度上依賴內部和外部的資料和分析來實現這一承諾,並在這個競爭異常激烈的產業中脫穎而出。「我們有很多客戶資料」,Discover Financial Services 資料科學技術總監 Brandon Harris 說。「我們需要使用這些資料作為差異化因素,不斷為客戶提供更好的體驗。」
多年以來,Discover 的團隊和業務單位內部湧現出各種分析實務。12 個團隊共產生了大約 8-10 個工具集。每個實務都需要不同的技能集和不同的工具。Discover 的領導團隊相信,將這些實務和團隊結合在一起可以改進分析,並在整個組織中建立一致的工具。
Discover 的技術團隊通常在內部建置新的解決方案,他們更喜歡控制端對端技術,並管理自己的資料中心。Harris 和他的團隊的任務是建立一個集中式平台,讓公司的資料科學家在一個共同的環境中進行協作,該平台是一個名為 Air9 的內部資料科學工作台。
Amazon EFS 在可擴展性和成本方面都符合要求,而且由於 Kubernetes 社群的一些出色工作,該服務已具備儲存體類別功能。」
Brandon Harris
Discover Financial Services 資料科學技術總監
建置雲端原生資料科學平台
Harris 團隊對 Air9 的最初設計原則之一是多樣性的優勢。「不僅團隊及其經驗具有多樣性,而且方法和工具也有所不同」,Harris 說。「我們不打算為這個成熟的分析社群提供一種一體適用的資料科學方法。」
Harris 的團隊認為,Kubernetes 非常適合託管 Air9,因為該公司已使用的許多資料科學工具很自然地適合容器化。擁有專用容器允許獨立的工作負載,可讓使用者安裝自訂套件並對其在多租用戶環境中難以管理的環境進行變更。由於 Discover 是 Amazon Web Services (AWS) 的長期客戶和 Amazon Simple Storage Service (Amazon S3) 的使用者,因此該團隊還決定部署 Amazon Elastic Compute Cloud (Amazon EC2) 執行個體。使用此方法,來自多個國家/地區的 883 位資料科學家現在可以選擇 Amazon EC2 執行個體大小、類型和數量,並且可以讓應用程式為資料集自動掛載該執行個體。
使用 AWS 改善可擴展性、儲存和成本
具有全受管、雲端原生檔案儲存的共享儲存功能是 Air9 的另一個關鍵元件。「如果您執行所有這些不同的環境,將需要一種通用的方式來儲存資料和進行協作」,Harris 說。
但是,在 Discover 團隊開始設計儲存層時,專案遇到了障礙。「我們的分析團隊在雲端資料倉儲中擁有一些非常大的資料集,但我們必須為他們的工作計劃本機儲存,以及在團隊之間和跨團隊共享資料的機制」,Harris 說。「此儲存層還必須具有很強的彈性,並支援隨時間的顯著增長。」
Harris 和他的團隊開始利用開放原始碼分散式儲存解決方案作為資料科學平台的儲存層,但執行和管理該解決方案很快變得昂貴又耗時。「當我們發現與執行自己的儲存平台關聯的每月成本超過運算成本時,我們就知道出現問題」,Harris 說。「最終,額外的成本歸因於分散式儲存的複寫因素,但是為了降低成本 – 減少複寫因素 – 而做出的權衡並不是我們想要的。」
由於該團隊在平台的運算端使用 Amazon EC2 獲得了成功,因此它評估了 AWS 受管儲存服務,並選擇部署 Amazon Elastic File System (Amazon EFS)。Harris 說,「Amazon EFS 在可擴展性和成本方面都符合要求,而且由於 Kubernetes 社群的一些出色工作,該服務已具備儲存體類別功能。AWS 還讓我們針對不同類型的資料使用不同的環境,因此我們可以更好地保護更敏感的資料類型。」
以前,每個團隊都有一個主目錄和一個團隊目錄。透過利用 Amazon EFS,該公司可以輕鬆提供跨資料科學工具、專案和資料集的共享存取權,以實現更無縫的協作。長期的資料封存功能以及 Amazon S3 的低開銷成本也意味著 Discover 可以自訂備份程序,這樣它就可以有第二個資料副本用於安全保管。
「我們將 Amazon EFS 用作該協作層,但我們還有一個存檔和歷史層,用於不同的資料集或生命週期管理用途」,Harris 說。「我們需要將特定的資料集保留指定年限。Amazon S3 和 Amazon S3 Glacier 儲存類別有助於確保我們能夠以符合成本效益的方式存放資料科學家建立和使用的所有資料。」
改善協助和產生洞察的時間
如今,Air9 透過使 Discover 的資料科學家在 AWS 上的一個集中位置執行分析應用程式;在一個共享儲存環境中協作、利用結構化和非結構化資料來源;以及從多個源處理和存放資料來提高生產力和效率。這可讓 Discover 的資料科學家更快、更輕鬆地分析資料,以取得洞察。
先前的資料平台需要幾週的時間來升級,主要是由於儲存限制,以及在需要額外儲存時需要調整舊儲存叢集的大小和增長該叢集。由於 Amazon EFS 在幕後完成所有這些操作,該團隊現在可以在幾小時內更新資料平台。此平台還支援自助服務,協助資料科學家在不影響同事經驗的情況下保持工作效率。「在我們先前的內部部署環境中,沒有促進資料科學家之間的這些對話和互動的機制」,Harris 說。
使用 AWS 解決方案,Harris 預估他的團隊已將管理儲存所花費的時間減少 90%。透過依賴 AWS 來管理服務並提供冗餘功能,而不是在內部架構和建置它,Discover 已將成本降低了 50-60%。
這些變更也有助於推進 Discover 的整體數位轉型工作。「過去,為使用者提供工作所需的工具需要數週時間」,Harris 說。「而現在,我們可以在數小時內完成,這樣他們就可以立即開始收集洞察,為我們的客戶提供價值。」
若要進一步了解,請瀏覽 thinkwithwp.com/efs。
參考架構
參考架構
關於 Discover Financial Services
Discover Financial Services 是一間數位銀行和支付服務公司。此公司成立於 1985 年,總部位於芝加哥北部,以協助人們更智慧地消費、更好地管理債務和增加儲蓄為使命。
AWS 的優勢
- 將儲存管理時間減少 90% 並將成本降低 50-60%
- 隨需擴展運算和儲存
- 共享儲存可讓資料科學家進行更多的協作
- 由於無限制的儲存,可以自訂備份程序
- 在幾小時而非幾週內更新資料平台
- 資料科學家可以專注於洞察,而不是技術
使用的 AWS 服務
Amazon Elastic File System
Amazon Elastic File System (Amazon EFS) 提供簡單、可擴展、全受管的彈性 NFS 檔案儲存,可與 AWS 雲端服務和內部部署資源搭配使用。其建置是為了要隨需擴展至數 PB,且不會中斷應用程式,可隨著您新增和移除檔案自動擴展和縮減,無須佈建和管理容量來適應增長。
Amazon S3
Amazon Simple Storage Service (Amazon S3) 物件儲存服務提供領先業界的可擴展性、資料可用性、安全性及效能。
Amazon S3 Glacier 和 S3 Glacier Deep Archive
Amazon S3 Glacier 和 S3 Glacier Deep Archive 是成本極低的 Amazon S3 雲端儲存類別,為資料存檔和長期備份提供安全且耐用的儲存。
Amazon EC2
Amazon Elastic Compute Cloud (Amazon EC2) 是一種 Web 服務,可在雲端提供安全、可調整大小的運算容量。該服務旨在降低開發人員進行 Web 規模雲端運算的難度。Amazon EC2 的 Web 服務界面非常簡單,您可以輕鬆獲取和配置容量。
開始使用
各行各業各種規模的組織每天都在使用 AWS 來變革其業務和履行其使命。聯絡我們的專家,立即開始您自己的 AWS 雲端之旅。