Fallstudie: Caltech Guttman Lab
2016
Bei Guttman Lab for lncRNA Biology am kalifornischen Institut für Technologie (Caltech) handelt es sich um ein vom namhaften Wissenschaftler Dr. Mitch Guttman geführtes Forschungslabor. Er leitet ein Team von Wissenschaftlern, die eine neue Klasse von Genen namens lncRNAs, kurz für nicht-kodierte RNA, erforschen. Mithilfe eines Genomikkonzeptes und Biochemie, Molekularbiologie, Zellbiologie und computergestützter Biologie erforschen Guttman und sein Team, wie lncRNAs Protein- und DNA-Moleküle in der Zelle ordnen, um präzise Genexpression zu steuern.
Unsere lncRNA-Analyse erfordert sehr rechenintensive Verarbeitung und Integration. Mithilfe von AWS können wir schnell über 1 000 oder mehr Knoten rechnen, was unseren Zeitrahmen für Gensequenzierungsanalysen von mehreren Wochen auf wenige Tage verkürzt.“
Dr. Mitch Guttman
Assistant Professor, Abteilung für Biologie und Biological Engineering, Caltech Guttman Lab
Die Herausforderung
Als Dr. Guttman 2013 ans Caltech kam, wollte er sicherstellen, dass sein Forschungsteam über ein HPC-Cluster verfügt, das elastisch und flexibel ist. "Als wir uns Gedanken über ein Cluster für unser Labor machten, wussten wir, dass es schwankende Rechenanforderungen unterstützen musste", so Guttman. "Manchmal brauchen wir 1 000 Rechenknoten und manchmal nur 10. Es kommt auf die Datenverfügbarkeit an und darauf, in welcher Forschungsphase wir uns bei einem Projekt befinden. Und die Konvergenz mehrerer Projekte gleichzeitig kann diese Anzahl sogar noch weiter erhöhen."
Im Labor wollte man jedoch nicht ein lokales Cluster erstellen müssen, um die eigenen Anforderungen erfüllen zu können. "Kalifornien zählt du den Bundesstaaten mit den höchsten Immobilien- und Elektrizitätskosten, also bereiteten uns die Kosten für die Erstellung unseres eigenen Clusters vor Ort Sorgen", so John Lilley, leitender Administrator für Informationsmanagement-Systeme und -Dienste des Caltech. "Wir wollten außerdem unsere Zeit nicht mit der Verwaltung und Wartung des Clusters verbringen."
Außerdem wollten Guttman und sein Team sicherstellen, dass sie Cluster-Anmeldeinformationen einfach verwalten können. "Wir wollten in der Lage sein, Cluster-Benutzerkonten von einem zentralen Standort aus zu aktivieren und deaktivieren, ohne uns darüber Sorgen machen zu müssen, dass wir Informationen auf einer der Maschinen übersehen könnten", so Lilley.
Gründe für Amazon Web Services
Caltech hatte bereits seinen gesamten Webauftritt in die AWS-Cloud-Plattform (Amazon Web Services) verschoben, und das Guttman Lab entschied sich außerdem für die Verwendung von AWS, um sein HPC-Cluster zu unterstützen. "Wir waren auf der Suche nach einem Weg, um die Cloud für unsere Rechenressourcen zu nutzen, und AWS war die beste Wahl, weil es die Elastizität, Flexibilität und Kosteneinsparungen bot, die wir suchten", so Lilley.
Das Guttman Lab nutzt ein HPC-Cluster, das Computer umfasst, die mit einer Amazon Virtual Private Cloud (Amazon VPC) verbunden sind, durch die das Labor einen logisch isolierten Abschnitt der AWS-Cloud bereitstellen kann, um AWS-Ressourcen in einem definierten virtuellen Netzwerk auszuführen. Forscher in Trocken- und Nasslaboren gewinnen Daten aus der Gensequenzierung und speichern diese in ein GlusterFS-Dateisystem in der Amazon VPC. Die Forscher greifen mithilfe einer gemeinsam genutzten AWS-basierten Linux-Workstation mit Authentifizierung über Simple AD, einem für Active Directorys kompatiblen Verzeichnis vom AWS Directory Service, auf die Daten zu.
Das Labor nutzt außerdem den verwalteten Desktop Computing-Service Amazon WorkSpaces für Nicht-Linux-Nutzer. "Wir wollten unseren Windows-Nutzern die Möglichkeit bieten, sich von ihren Trockenlabor-PCs mit Amazon WorkSpaces zu verbinden und vom selben Datenzugang wie Linux-Nutzer zu profitieren", so Lilley. "Und wir können Simple AD nutzen, um diesen Zugang einfach zu verwalten." Das Labor nutzt Amazon Elastic Compute Cloud (Amazon EC2) Instances für seine GlusterFS Nodes. Für die Bereitstellung und Wartung seines HPC-Clusters auf AWS nutzt das Labor ein CfnCluster Framework. Mithilfe dieses Clusters entwickelt das Forschungsteam computergestützte Tools und statistische Methoden zur Analyse experimenteller Daten.
Die Vorteile
Mit AWS profitiert das Guttman Lab nun von der Elastizität, die es für die Verwaltung seiner schwankenden Rechenanforderungen braucht. "Wir mussten nicht unser eigenes physisches Cluster erstellen, um unsere schwankende Datenverarbeitungsnutzung zu verwalten, weil AWS für uns automatisch skaliert", so Lilley. Guttman fügt hinzu: "Wir müssen nun keine Zeit für das Priorisieren von Projekten im Vorhinein aufwenden, und wir wissen, wir werden genug Rechenleistung haben, ohne alle paar Jahre die Hardware erneuern zu müssen. Wir können außerdem aktiv neue Forschungsmethoden entwickeln und testen. AWS ist definitiv ein wichtiger Baustein für unser Labor."
Das Labor verfügt außerdem über die nötige Flexibilität, um bei Bedarf problemlos weitere Rechenressourcen hinzuzufügen. "Wir mussten vor Kurzem unser GlusterFS-System von 5 Terabyte auf 24 Terabyte erweitern, und wir konnten dies bewerkstelligen, ohne neue Hardware kaufen zu müssen", so Lilley. "Wir haben einfach mehr Amazon EC2 Nodes hinzugefügt und unseren Cloud-Speicher erhöht – das alles hat nur eine Stunde gedauert. Bisher hätte das Wochen gedauert, weil es Diskussionen über den Kaufpreis für die Hardware gegeben hätte, und dann hätten wir uns um die Beschaffung, Installation und das Testen kümmern müssen."
Außerdem können die Forscher im Labor mithilfe der AWS-Cloud lncRNA-Daten schneller analysieren. "Unsere lncRNA-Analyse erfordert sehr rechenintensive Verarbeitung und Integration", so Guttman. "Mithilfe von AWS können wir schnell über 1 000 oder mehr Knoten rechnen, was unseren Zeitrahmen für Gensequenzierungsanalysen von mehreren Wochen auf wenige Tage verkürzt. Mit der begrenzten Kapazität wäre dies zuvor nicht möglich gewesen."
Zudem konnte das Labor die Kosten dank Amazon EC2-Spot-Instances senken, die nicht verwendete Amazon EC2-Rechenkapazitäten mit einem Rabatt in Höhe von bis zu 90 % des On-Demand-Preises anbieten. "Angesichts der elastischen Rechenfunktionen, die wir dank AWS erhalten, sowie der finanziellen Wirtschaftlichkeit der EC2 Spot Instances, ist dieses Cluster bei Weitem kostengünstiger als alles, was wir selber erstellen hätten können", so Guttman.
Mithilfe von Amazon WorkSpaces und Simple AD kann das Guttman Lab den Zugang zu seinem HPC-Cluster problemlos verwalten. "Als wir mit dem Cluster begannen, war es eine große Herausforderung, die Informationen vom Linux-Desktop mit den Management Hosts und dem CfnCluster zu synchronisieren", so Lilley. "Mit dem in das Cluster integrierten Simple AD haben wir viel Zeit gespart, da wir unsere Konten von einem zentralen Standort aus aktivieren und deaktivieren können. Simple AD hilft uns dabei, in der gesamten Umgebung alles konsistent zu halten."
Caltech plant, AWS in weiteren Laboren und Abteilungen einzusetzen. "Wir nehmen das, was wir auf AWS erstellt haben, und bringen es anderen Genomik-Forschern auf dem gesamten Campus", so Lilley. "Wir betrachten dies als Vorlage für die weitere Arbeit mit HPC am Caltech."
Über Caltech Guttman Lab
Bei Guttman Lab for lncRNA Biology am kalifornischen Institut für Technologie (Caltech) handelt es sich um ein vom namhaften Wissenschaftler Dr. Mitch Guttman geführtes Forschungslabor.
Genutzte AWS-Services
Amazon EC2
Der Web-Service Amazon Elastic Compute Cloud (Amazon EC2) stellt sichere, skalierbare Rechenkapazitäten in der Cloud bereit. Der Service ist darauf ausgelegt, Web-Scale-Cloud Computing für Entwickler zu erleichtern.
Amazon VPC
Amazon Virtual Private Cloud (Amazon VPC) ermöglicht die Bereitstellung eines logisch isolierten Bereichs der AWS-Cloud, in dem Sie AWS-Ressourcen in einem von Ihnen definierten virtuellen Netzwerk ausführen können.
Weitere Informationen »
Amazon WorkSpaces
Amazon WorkSpaces ist eine verwaltete, sichere Desktop-as-a-Service-Lösung (DaaS).
Weitere Informationen »
Erste Schritte
Unternehmen aller Größen und Branchen nutzen AWS, um erfolgreicher zu sein. Kontaktieren Sie unsere Experten und begeben Sie sich noch heute auf Ihre eigene AWS Cloud-Reise.