Discover beschleunigt Analysen und Time-to-Insights mit AWS

2020

Discover Financial Services bietet Bank- und Kreditprodukte an, die den Kunden helfen, ihre finanziellen Ziele zu erreichen, wie z. B. einen guten Kredit aufzubauen, eine Ausbildung zu finanzieren und Schulden zu konsolidieren. Das Unternehmen verlässt sich stark auf Daten und Analysen, sowohl intern als auch extern, um dieses Versprechen zu erfüllen und sich in einer äußerst wettbewerbsintensiven Branche zu profilieren. „Wir haben eine große Menge an Kundendaten“, sagt Brandon Harris, Leiter der Data Science Technology bei Discover Financial Services. „Wir müssen diese Daten als Unterscheidungsmerkmal nutzen, um den Kunden ein immer besseres Erlebnis zu bieten.“

Im Laufe der Jahre entstanden in den Teams und Geschäftsbereichen von Discover einzelne Analyseverfahren. Insgesamt gab es etwa 8-10 Werkzeugsätze für 12 Teams. Jede Praxis erforderte unterschiedliche Fähigkeiten und diverse Werkzeuge. Das Führungsteam von Discover war der Meinung, dass die Zusammenführung dieser Verfahren und Teams die Analyse verbessern und einheitliche Tools für das gesamte Unternehmen schaffen könnte.

Das Technologie-Team von Discover entwickelt neue Lösungen in der Regel intern und zieht es vor, die End-to-End-Technologien zu kontrollieren und die eigenen Rechenzentren zu verwalten. Harris und sein Team hatten die Aufgabe, eine zentrale Plattform zu schaffen, die es den Datenwissenschaftlern des Unternehmens ermöglichen würde, in einer gemeinsamen Umgebung zusammenzuarbeiten, einer internen Datenwissenschaftlichen Werkbank namens Air9.

Discover Financial Services schafft Umgebungen, in denen Datenwissenschaftler zusammenarbeiten können
kr_quotemark

Amazon EFS erfüllte die Anforderungen in Bezug auf Skalierbarkeit und Kosten, und dank der großartigen Arbeit der Kubernetes-Community verfügte der Service bereits über Speicherkapazitäten.“

Brandon Harris
Direktor für Datenwissenschaftstechnologie, Discover Financial Services

Aufbau einer Cloud-nativen Plattform für Datenwissenschaft

Eines der ersten Designprinzipien, auf das sich Harris' Team für Air9 einigte, war die Stärke der Vielfalt. „Nicht nur die Vielfalt der Teams und ihrer Erfahrungen, sondern auch die unterschiedlichen Ansätze und Instrumente“, sagt Harris. „Wir wollten dieser etablierten Analytik-Community keinen Einheitsansatz für Data Science liefern.“

Harris' Team entschied sich für Kubernetes als Host für Air9, da sich viele der Data-Science-Tools, die das Unternehmen bereits verwendete, für die Containerisierung eigneten. Mit dedizierten Containern lassen sich Arbeitslasten isolieren und die Benutzer können benutzerdefinierte Pakete installieren und Änderungen an ihren Umgebungen vornehmen, die in einer mandantenfähigen Umgebung nur schwer zu verwalten wären. Da Discover ein langjähriger Kunde von Amazon Web Services (AWS) und Nutzer von Amazon Simple Storage Service (Amazon S3) ist, entschied sich das Team auch für die Bereitstellung von Amazon Elastic Compute Cloud (Amazon EC2)-Instanzen. Mit diesem Ansatz können nun 883 Datenwissenschaftler in mehreren Ländern die Größe, den Typ und die Anzahl ihrer Amazon EC2-Instacez auswählen und die Anwendung diese Instance für ihre Datensätze automatisch einbinden lassen.

Verbesserung der Skalierbarkeit, Speicherung und Kosten mit AWS

Eine gemeinsam genutzte Speicherkapazität mit vollständig verwaltetem, Cloud-nativem Dateispeicher war eine weitere entscheidende Komponente von Air9. „Wenn man all diese verschiedenen Umgebungen betreibt, muss es eine gemeinsame Möglichkeit geben, Daten zu speichern und zusammenzuarbeiten“, sagt Harris.

Das Projekt geriet jedoch ins Stocken, als das Discover-Team mit der Entwicklung der Speicherschicht begann. „Unsere Analyseteams hatten einige sehr große Datensätze in unserem Cloud-Data-Warehouse, aber wir mussten einen lokalen Speicher für ihre eigene Arbeit sowie einen Mechanismus für die gemeinsame Nutzung von Daten in und zwischen den Teams einplanen“, sagt Harris. „Diese Speicherebene musste auch sehr belastbar sein und im Laufe der Zeit ein erhebliches Wachstum unterstützen.“

Harris und sein Team wollten eine verteilte Open-Source-Speicherlösung als Speicherebene für ihre Data-Science-Plattform nutzen, aber die Ausführung und Verwaltung dieser Lösung wurde bald teuer und zeitaufwändig. „Als wir sahen, dass die monatlichen Kosten für den Betrieb unserer eigenen Speicherplattform die Rechenkosten überstiegen, wussten wir, dass etwas nicht stimmte“, sagt Harris. „Letztendlich wurden die überhöhten Kosten auf den Replikationsfaktor für verteilten Speicher zurückgeführt, aber der Kompromiss zur Kostenreduzierung - die Verringerung des Replikationsfaktors - war für uns nicht akzeptabel.“

Aufgrund des Erfolgs, den das Team mit Amazon EC2 auf der Rechenseite der Plattform hatte, prüfte es die verwalteten AWS-Services für die Speicherung und entschied sich für die Bereitstellung von Amazon Elastic File System (Amazon EFS). Harris sagt, „Amazon EFS erfüllte die Anforderungen in Bezug auf Skalierbarkeit und Kosten, und dank der großartigen Arbeit der Kubernetes-Community verfügte der Service bereits über Speicherkapazitäten.“ AWS ermöglichte es uns auch, verschiedene Umgebungen für verschiedene Datentypen zu verwenden, sodass wir sensiblere Datentypen besser schützen konnten.“

Zuvor hatte jedes Team ein Heimatverzeichnis und ein Teamverzeichnis. Durch die Nutzung von Amazon EFS konnte das Unternehmen problemlos einen gemeinsamen Zugriff auf Data-Science-Tools, Projekte und Datensätze bereitstellen, um eine nahtlose Zusammenarbeit zu ermöglichen. Langfristige Datenarchivierungsfunktionen in Verbindung mit den geringen Gemeinkosten von Amazon S3 bedeuteten auch, dass Discover die Backup-Prozesse so anpassen konnte, dass eine zweite Kopie der Daten zur sicheren Aufbewahrung zur Verfügung stand.

„Wir verwenden Amazon EFS als Kollaborationsebene, aber wir haben auch ein Archiv und eine historische Ebene für verschiedene Datensätze oder für das Lebenszyklusmanagement“, sagt Harris. „Wir müssen bestimmte Datensätze für eine bestimmte Anzahl von Jahren aufbewahren. Amazon S3 und die Amazon S3 Glacier-Speicherklasse waren hilfreich, um sicherzustellen, dass wir alle Daten, die von unseren Datenwissenschaftlern erstellt und verwendet werden, kostengünstig speichern können.“

Verbesserung der Zusammenarbeit und der Zeit bis zu den Erkenntnissen

Heute steigert Air9 die Produktivität und Effizienz der Datenwissenschaftler von Discover, indem es ihnen ermöglicht, Analyseanwendungen an einem zentralen Ort auf AWS auszuführen, in einer gemeinsam genutzten Speicherumgebung zusammenzuarbeiten, strukturierte und unstrukturierte Datenquellen zu nutzen und Daten aus mehreren Quellen zu verarbeiten und zu speichern. Dies ermöglicht den Datenwissenschaftlern von Discover eine schnellere und einfachere Analyse der Daten, um Erkenntnisse zu gewinnen.

Die Aufrüstung der vorherigen Datenplattform nahm Wochen in Anspruch, vor allem aufgrund von Speicherbeschränkungen und der Notwendigkeit, die Größe der alten Speichercluster zu ändern und zu erweitern, wenn zusätzlicher Speicher benötigt wurde. Da Amazon EFS all dies hinter den Kulissen erledigt, kann das Team die Datenplattform jetzt innerhalb von Stunden aktualisieren. Die Plattform ermöglicht auch die Selbstbedienung, sodass die Datenwissenschaftler produktiv bleiben können, ohne die Arbeit ihrer Kollegen zu beeinträchtigen. „In unserer vorherigen lokalen Umgebung gab es keinen Mechanismus, um diese Gespräche und Interaktionen zwischen unseren Datenwissenschaftlern zu erleichtern“, sagt Harris.

Harris schätzt, dass sein Team mit der AWS-Lösung den Zeitaufwand für die Speicherverwaltung um 90 Prozent reduziert hat. Und dadurch, dass AWS den Dienst verwaltet und die Redundanzfunktion bereitstellt, anstatt sie intern zu entwickeln und zu erstellen, konnte Discover die Kosten um 50-60 % senken.

Diese Änderungen tragen auch dazu bei, die digitalen Transformationsbemühungen von Discover insgesamt voranzutreiben. „Früher dauerte es Wochen, bis die Benutzer die Tools erhielten, die sie für ihre Arbeit benötigten“, sagt Harris. „Jetzt können wir das in wenigen Stunden erledigen, sodass sie fast sofort damit beginnen können, Erkenntnisse zu gewinnen und einen Mehrwert für unsere Kunden zu schaffen.“

Weitere Informationen erhalten Sie unter thinkwithwp.com/efs.

Referenzarchitekturen

Referenzarchitekturen


Discover Financial Services

Discover Financial Services ist ein Unternehmen für digitale Bank- und Zahlungsdienstleistungen. Das 1985 gegründete Unternehmen mit Hauptsitz nördlich von Chicago hat es sich zur Aufgabe gemacht, Menschen dabei zu helfen, ihre Ausgaben intelligenter zu gestalten, Schulden besser zu verwalten und mehr zu sparen.

Vorteile von AWS

  • Senkt den Zeitaufwand für die Speicherverwaltung um 90 % und die Kosten um 50-60 %.
  • Skalierung von Rechenleistung und Speicher nach Bedarf
  • Gemeinsamer Speicher ermöglicht Datenwissenschaftlern eine engere Zusammenarbeit
  • Anpassbare Backup-Prozesse dank unbegrenztem Speicherplatz
  • Aktualisiert Datenplattform in Stunden statt Wochen
  • Datenwissenschaftler können sich auf Erkenntnisse statt auf die Technologie konzentrieren

Genutzte AWS-Services

Amazon Elastic File System

Amazon Elastic File System (Amazon EFS) stellt ein einfaches, skalierbares, vollständig verwaltetes und elastisches NFS-Dateisystem für die Verwendung mit AWS-Cloud-Services und On-Premises-Ressourcen bereit. Es ist so konzipiert, dass es bei Bedarf auf Petabytes skaliert werden kann, ohne die Anwendungen zu unterbrechen. Sie wächst und schrumpft automatisch, wenn Sie Dateien hinzufügen oder entfernen und macht die Bereitstellung und Verwaltung von Kapazitäten zur Anpassung an das Wachstum überflüssig.

Weitere Informationen »

Amazon S3

Amazon Simple Storage Service (Amazon S3) ist ein Objektspeicherservice, der branchenführende Skalierbarkeit, Datenverfügbarkeit, Sicherheit und Leistung bietet.

Weitere Informationen »

Amazon S3 Glacier und S3 Glacier Deep Archive

Amazon S3 Glacier und S3 Glacier Deep Archive sind sichere, dauerhafte und äußerst kostengünstige Amazon-S3-Cloud-Speicherklassen für Datenarchivierung und langfristige Sicherungen.

Weitere Informationen»

Amazon EC2

Der Web-Service Amazon Elastic Compute Cloud (Amazon EC2) stellt sichere, skalierbare Rechenkapazitäten in der Cloud bereit. Der Service ist darauf ausgelegt, Cloud Computing für Entwickler zu erleichtern. Mit der einfachen Web-Service-Oberfläche von Amazon EC2 können Sie mühelos Kapazität erhalten und konfigurieren.

Weitere Informationen»


Erste Schritte

Organisationen aller Größen aus verschiedenen Sektoren transformieren und erfüllen ihre Missionen täglich mithilfe von AWS. Kontaktieren Sie unsere Experten und begeben Sie sich noch heute auf Ihre eigene AWS Cloud-Reise.