Warum Amazon-EC2-Inf2-Instances?
Amazon-Elastic-Compute-Cloud-Inf2-Instances (Amazon EC2) sind speziell für Deep-Learning-Inferenzen (DL) entwickelt worden. Sie liefern hohe Leistung zu den niedrigsten Kosten in Amazon EC2 für generative Modelle der künstlichen Intelligenz (KI), einschließlich großer Sprachmodelle (LLMs) und Vision-Transformatoren. Sie können Inf2-Instances verwenden, um Ihre Inferenzanwendungen für Textzusammenfassung, Codegenerierung, Video- und Bilderzeugung, Spracherkennung, Personalisierung, Betrugserkennung und mehr auszuführen.
Inf2-Instances werden von AWS Inferentia2, dem AWS Inferentia-Chip der zweiten Generation, betrieben. Inf2-Instances steigern die Leistung von Inf1, indem sie eine dreifach höhere Rechenleistung, einen vierfach größeren Gesamtspeicher für den Beschleuniger, einen bis zu vierfach höheren Durchsatz und eine bis zu zehnfach geringere Latenz bieten. Inf2-Instanzen sind die ersten für Inferenzen optimierten Instanzen in Amazon EC2, die verteilte Inferenzen mit Ultra-Hochgeschwindigkeits-Konnektivität zwischen Inferentia-Chips unterstützen. Sie können jetzt effizient und kostengünstig Modelle mit Hunderten von Milliarden von Parametern über mehrere Chips auf Inf2-Instanzen bereitstellen.
Das AWS Neuron SDK hilft Entwicklern, Modelle auf den AWS Inferentia-Chips bereitzustellen (und sie auf AWS Trainium-Chips zu trainieren). Es lässt sich nativ in Frameworks wie PyTorch und TensorFlow integrieren, so dass Sie Ihre bestehenden Workflows und Ihren Anwendungscode weiter nutzen und auf Inf2-Instances ausführen können.
Vorteile
Funktionen
Produktdetails
Instance-Größe | Inferentia2-Chips | Beschleuniger Arbeitsspeicher (GB) |
vCPU | Arbeitsspeicher (GiB) |
Lokale Speicherung |
Inter-Chip Interconnect |
Netzwerk Bandbreite (Gbit/s) |
EBS Bandbreite (Gbit/s) |
On-Demand-Preise | Reservierte Instance für 1 Jahr | Reservierte Instance für 3 Jahre |
inf2.xlarge | 1 | 32 | 4 | 16 | Nur EBS | – | Bis zu 15 | Bis zu 10 | 0,76 USD | 0,45 USD | 0,30 USD |
inf2.8xlarge | 1 | 32 | 32 | 128 | Nur EBS | – | Bis zu 25 | 10 | 1,97 USD | 1,81 USD | 0,79 USD |
inf2.24xlarge | 6 | 192 | 96 | 384 | Nur EBS | Ja | 50 | 30 | 6,49 USD | 3,89 USD | 2,60 USD |
inf2.48xlarge | 12 | 384 | 192 | 768 | Nur EBS | Ja | 100 | 60 | 12,98 USD | 7,79 USD | 5,19 USD |
Empfehlungen von Kunden und Partnern
Hier sind einige Beispiele dafür, wie Kunden und Partner ihre Geschäftsziele mit Amazon EC2 Inf2-Instances erreicht haben.
-
Leonardo.ai
Unser Team bei Leonardo nutzt generative KI, um Kreativprofis und -enthusiasten in die Lage zu versetzen, visuelle Inhalte mit unübertroffener Qualität, Geschwindigkeit und Stilkonsistenz zu produzieren. Das Preis-Leistungs-Verhältnis von AWS Inf2 Durch den Einsatz von AWS Inf2 können wir unsere Kosten um 80 % senken, ohne Abstriche bei der Leistung machen zu müssen. Dadurch ändert sich das Wertangebot für unsere Kunden grundlegend, da wir unsere fortschrittlichsten Features zu einem günstigeren Preis anbieten können. Außerdem werden dadurch Bedenken hinsichtlich der Kosten und der Verfügbarkeit von Kapazitäten für unsere zusätzlichen KI-Dienste ausgeräumt, die mit unserem Wachstum und unserer Größe immer wichtiger werden. Sie ist eine Schlüsseltechnologie für uns, mit der wir die Grenzen dessen, was mit generativer KI möglich ist, weiter ausreizen und eine neue Ära der Kreativität und Ausdruckskraft für unsere Nutzer ermöglichen.
Pete Werner, Head of AI bei Leonardo.ai -
Runway
Unsere KI-Magic-Tools bei Runway ermöglichen es unseren Nutzern, Inhalte wie nie zuvor zu erstellen und zu bearbeiten. Wir verschieben ständig die Grenzen dessen, was mit KI-gestützter Inhaltserstellung möglich ist, und da unsere KI-Modelle immer komplexer werden, können die zugrunde liegenden Infrastrukturkosten für den Betrieb dieser Modelle in großem Maßstab teuer werden. Durch unsere Zusammenarbeit mit Amazon-EC2-Inf2-Instances, die von AWS Inferentia betrieben werden, sind wir in der Lage, einige unserer Modelle mit einem bis zu zweimal höheren Durchsatz als vergleichbare GPU-basierte Instances auszuführen. Diese hochleistungsfähige und kostengünstige Inferenz ermöglicht es uns, mehr Features einzuführen, komplexere Modelle bereitzustellen und letztendlich ein besseres Erlebnis für die Millionen von Kreativen zu bieten, die Runway nutzen.
Cristóbal Valenzuela, Mitbegründer und CEO von Runway -
Qualtrics
Qualtrics entwirft und entwickelt Software für das Erfahrungsmanagement.
Bei Qualtrics konzentrieren wir uns auf die Entwicklung von Technologien, die Erfahrungslücken für Kunden, Mitarbeiter, Marken und Produkte schließen. Um dies zu erreichen, entwickeln wir komplexe Multi-Task- und multimodale DL-Modelle, um neue Features einzuführen, wie z. B. Textklassifizierung, Sequenz-Tagging, Diskursanalyse, Extraktion von Schlüsselsätzen, Themenextraktion, Clustering und durchgängiges Gesprächsverständnis. Da wir diese komplexeren Modelle in immer mehr Anwendungen einsetzen, wächst das Volumen an unstrukturierten Daten, und wir benötigen leistungsfähigere, inferenzoptimierte Lösungen, die diesen Anforderungen gerecht werden, wie z. B. Inf2-Instances, um unseren Kunden die besten Erlebnisse zu bieten. Wir freuen uns über die neuen Inf2-Instances, weil wir damit nicht nur einen höheren Durchsatz erreichen und gleichzeitig die Latenzzeit drastisch reduzieren können, sondern auch Features wie verteilte Inferenz und verbesserte Unterstützung für dynamische Eingabeformen einführen, die uns bei der Skalierung helfen werden, um den Bereitstellungsanforderungen gerecht zu werden, wenn wir auf größere, komplexere große Modelle zusteuern.
Aaron Colak, Head of Core Machine Learning bei Qualtrics -
Finch Computing
Finch Computing ist ein Technologieunternehmen für natürliche Sprache, das Anwendungen für künstliche Intelligenz für Behörden, Finanzdienstleistungen und Datenintegratoren anbietet.
Um den Bedarf unserer Kunden an natürlicher Sprachverarbeitung in Echtzeit zu decken, entwickeln wir hochmoderne DL-Modelle, die für große Produktions-Workloads skalierbar sind. Wir müssen Transaktionen mit niedrigen Latenzzeiten anbieten und hohe Durchsätze erreichen, um globale Datenströme zu verarbeiten. Wir haben bereits viele Produktions-Workloads auf Inf1-Instances migriert und dabei eine Kostenreduzierung von 80 % gegenüber GPUs erzielt. Jetzt entwickeln wir größere, komplexere Modelle, die eine tiefere, aufschlussreichere Bedeutung von geschriebenen Texten ermöglichen. Viele unserer Kunden benötigen den Zugang zu diesen Erkenntnissen in Echtzeit, und die Leistung der Inf2-Instances wird uns helfen, niedrigere Latenzzeiten und einen höheren Durchsatz als bei Inf1-Instances zu erzielen. Mit den Leistungsverbesserungen von Inf2 und den neuen Inf2-Features, wie der Unterstützung dynamischer Eingabegrößen, verbessern wir unsere Kosteneffizienz, erhöhen das Echtzeit-Kundenerlebnis und helfen unseren Kunden, neue Erkenntnisse aus ihren Daten zu gewinnen.
Franz Weckesser, Chief Architect bei Finch Computing -
Money Forward Inc.
Money Forward, Inc. bietet Unternehmen und Privatpersonen eine offene und faire Finanzplattform. Als Teil dieser Plattform bietet HiTTO Inc., ein Unternehmen der Money Forward-Gruppe, einen KI-Chatbot-Service an, der maßgeschneiderte Modelle zur Verarbeitung natürlicher Sprache (NLP) verwendet, um auf die unterschiedlichen Bedürfnisse ihrer Firmenkunden einzugehen.
Wir haben einen groß angelegten KI-Chatbot-Service auf den Amazon EC2 Inf1-Instances gestartet und unsere Inferenzlatenz um 97 % gegenüber vergleichbaren GPU-basierten Instances reduziert und gleichzeitig die Kosten gesenkt. Wir waren sehr erfreut, in unseren ersten Testergebnissen auf Amazon EC2 Inf2-Instances weitere Leistungsverbesserungen zu sehen. Mit demselben benutzerdefinierten NLP-Modell konnte AWS Inf2 die Latenz gegenüber Inf1 weiter um das 10-fache reduzieren. Während wir zu größeren Modellen mit mehreren Milliarden Parametern übergehen, gibt uns Inf2 die Gewissheit, dass wir unseren Kunden weiterhin ein erstklassiges durchgängiges Benutzererlebnis bieten können.
Takuya Nakade, CTO bei Money Forward Inc. -
Fileread
Wir bei Fileread.ai entwickeln Lösungen, die die Interaktion mit Ihren Dokumenten so einfach wie das Stellen von Fragen macht. So können Benutzer das Gesuchte in all ihren Dokumenten finden und erhalten schneller die richtigen Informationen. Seit der Umstellung auf die neue Inf2-EC2-Instance haben wir eine deutliche Verbesserung unserer NLP-Inferenzfunktionen festgestellt. Allein die Kosteneinsparungen waren für uns ein entscheidender Faktor und haben es uns ermöglicht, Ressourcen effizienter einzusetzen, ohne die Qualität zu beeinträchtigen. Wir haben unsere Inferenzlatenz um 33 % reduziert und gleichzeitig den Durchsatz um 50 % erhöht, was unsere Kunden mit schnelleren Durchlaufzeiten erfreut. Unser Team ist von der Geschwindigkeit und Leistung von Inf2 im Vergleich zu den älteren G5-Instances begeistert, und es ist klar, dass dies die Zukunft für den Einsatz von NLP-Modellen ist.
Daniel Hu, CEO bei Fileread -
Yaraku
Wir bei Yaraku haben es uns zur Aufgabe gemacht, eine Infrastruktur aufzubauen, die den Menschen hilft, über Sprachbarrieren hinweg zu kommunizieren. Unser Hauptprodukt, YarakuZen, ermöglicht es jedem, vom professionellen Übersetzer bis zum einsprachigen Privatmann, Texte und Dokumente sicher zu übersetzen und nachzubearbeiten. Um diesen Prozess zu unterstützen, bieten wir eine breite Palette von hochentwickelten Werkzeugen an, die auf DL-Modellen basieren und Aufgaben wie Übersetzung, Bitext-Wort-Alignment, Satzsegmentierung, Sprachmodellierung und viele andere abdecken. Durch den Einsatz von Inf1-Instances konnten wir unsere Services beschleunigen, um der steigenden Nachfrage gerecht zu werden, und gleichzeitig die Inferenzkosten im Vergleich zu GPU-basierten Instances um mehr als 50 % senken. Wir beginnen jetzt mit der Entwicklung größerer Modelle der nächsten Generation, die die erweiterten Fähigkeiten von Inf2-Instances erfordern, um die Nachfrage zu befriedigen und gleichzeitig eine niedrige Latenz zu gewährleisten. Mit Inf2 werden wir in der Lage sein, unsere Modelle bei gleichbleibendem Durchsatz um das 10-fache zu skalieren, sodass wir unseren Kunden ein noch höheres Qualitätsniveau bieten können.
Giovanni Giacomo, NLP Lead bei Yaraku -
Hugging Face
Hugging Face hat es sich zur Aufgabe gemacht, gute ML zu demokratisieren, um ML-Entwicklern auf der ganzen Welt zu helfen, reale Probleme zu lösen. Und der Schlüssel dazu ist, dass die neuesten und besten Modelle so schnell und effizient wie möglich auf den besten ML-Chips in der Cloud laufen. Wir freuen uns sehr über das Potenzial von Inferentia2, der neue Standard für den Einsatz generativer KI-Modelle in großem Maßstab zu werden. Mit Inf1 konnten wir die Kosten im Vergleich zu herkömmlichen GPU-basierten Instances um bis zu 70 % senken, und mit Inf2 haben wir eine bis zu 8-mal geringere Latenz für BERT-ähnliche Transformers im Vergleich zu Inferentia1 festgestellt. Mit Inferentia2 wird unsere Community in der Lage sein, diese Leistung problemlos auf LLMs mit mehr als 100 B Parametern zu skalieren, und auch auf die neuesten Diffusions- und Computer-Vision-Modelle.
-
PyTorch
PyTorch beschleunigt den Weg vom Forschungsprototyping zum Produktionseinsatz für ML-Entwickler. Wir haben mit dem AWS-Team zusammengearbeitet, um native PyTorch-Unterstützung für die neuen AWS Inferentia2-betriebenen Amazon-EC2-Inf2-Instances bereitzustellen. Da immer mehr Mitglieder unserer Community große generative KI-Modelle einsetzen möchten, freuen wir uns über die Zusammenarbeit mit dem AWS-Team, um die verteilte Inferenz auf Inf2-Instances mit der Hochgeschwindigkeitsverbindung NeuronLink zwischen Chips zu optimieren. Mit Inf2 können Entwickler, die PyTorch verwenden, jetzt problemlos ultragroße LLMs und Vision-Transformer-Modelle bereitstellen. Darüber hinaus bieten Inf2-Instances weitere innovative Fähigkeiten für PyTorch-Entwickler, einschließlich effizienter Datentypen, dynamischer Formen, benutzerdefinierter Operatoren und Hardware-optimierter stochastischer Rundung, was sie für eine breite Akzeptanz in der PyTorch-Gemeinschaft prädestiniert.
-
Nextira
Die historische Herausforderung bei LLMs und generell bei generativen KI-Anwendungen auf Unternehmensebene sind die Kosten, die mit dem Training und dem Betrieb von Hochleistungs-DL-Modellen verbunden sind. Zusammen mit AWS Trainium beseitigt AWS Inferentia2 die finanziellen Kompromisse, die unsere Kunden eingehen, wenn sie leistungsstarke Trainings benötigen. Jetzt können unsere Kunden, die nach Vorteilen in den Bereichen Training und Inferenz suchen, bessere Ergebnisse für weniger Geld erzielen. Trainium und Inferentia beschleunigen die Skalierung, um selbst die anspruchsvollsten DL-Anforderungen der größten Unternehmen von heute zu erfüllen. Viele Nextira-Kunden, die große KI-Workloads ausführen, werden direkt von diesen neuen Chipsätzen profitieren, die die Effizienz bei Kosteneinsparungen und Leistung steigern und zu schnelleren Ergebnissen auf ihrem Markt führen.
Jason Cutrer, Gründer und CEO von Nextira -
Amazon CodeWhisperer
Amazon CodeWhisperer ist ein KI-Codierungsbegleiter, der in Ihrer integrierten Entwicklungsumgebung (IDE) in Echtzeit einzeilige oder voll funktionsfähige Codeempfehlungen generiert, um Sie bei der schnellen Erstellung von Software zu unterstützen.
Mit CodeWhisperer verbessern wir die Produktivität von Softwareentwicklern, indem wir Codeempfehlungen mithilfe generativer KI-Modelle bereitstellen. Um hocheffektive Codeempfehlungen zu entwickeln, haben wir unser DL-Netzwerk auf Milliarden von Parametern skaliert. Unsere Kunden benötigen während der Eingabe Codeempfehlungen in Echtzeit, daher sind Antworten mit geringer Latenz von entscheidender Bedeutung. Große generative KI-Modelle benötigen leistungsstarke Rechenleistung, um Reaktionszeiten in Sekundenbruchteilen zu liefern. Mit Inf2 erreichen wir die gleiche Latenz wie bei der Ausführung von CodeWhisperer auf trainingsoptimierten GPU-Instances für große Eingabe- und Ausgabesequenzen. So helfen uns die Inf2-Instances, Kosten und Energie zu sparen und gleichzeitig die bestmögliche Erfahrung für Entwickler zu bieten.
Doug Seven, Geschäftsführer bei Amazon CodeWhisperer -
Amazon Search
Die Produktsuchmaschine von Amazon indexiert Milliarden von Produkten, bedient täglich Milliarden von Kundenanfragen und ist einer der meistgenutzten Dienste der Welt.
Ich freue mich sehr auf den Start von Inf2 GA. Die überragende Leistung von Inf2 in Verbindung mit seiner Fähigkeit, größere Modelle mit Milliarden von Parametern zu verarbeiten, macht es zur perfekten Wahl für unsere Dienstleistungen und ermöglicht es uns, neue Möglichkeiten in Bezug auf Modellkomplexität und Genauigkeit zu erschließen. Mit der erheblichen Beschleunigung und Kosteneffizienz, die Inf2 bietet, kann die Integration in die Amazon-Search-Serving-Infrastruktur uns helfen, die wachsenden Anforderungen unserer Kunden zu erfüllen. Wir planen, unsere neuen Einkaufserlebnisse mit generativen LLMs unter Verwendung von Inf2 zu betreiben.
Trishul Chilimbi, VP bei Amazon Search