Wir stellen vor: Amazon Nova: Grenzüberschreitende Intelligenz und branchenführendes Preis-Leistungs-Verhältnis

von Danilo Poccia übersetzt durch David Surey

Wir freuen uns, heute Amazon Nova, eine neue Generation hochmoderner Foundation Models (FMs), die führende Intelligenz und ein branchenführendes Preis-Leistungs-Verhältnis bieten und exklusiv auf Amazon Bedrock verfügbar sind.

Sie können Amazon Nova nutzen, um Kosten und Latenzzeiten für nahezu jede generative KI-Aufgabe zu reduzieren.

Sie können auf Amazon Nova aufbauen, um komplexe Dokumente und Videos zu analysieren, Diagramme und Grafiken zu verstehen, ansprechende Videoinhalte zu generieren und anspruchsvolle KI-Agenten aus einer Reihe von Intelligenzklassen zu erstellen, die für Unternehmens-Workloads optimiert sind.

Ganz gleich, ob Sie Dokumentenverarbeitungsanwendungen entwickeln, die Bilder und Text verarbeiten müssen, Marketing-Inhalte in großem Umfang erstellen oder KI-Agenten bauen, die visuelle Informationen verstehen und darauf reagieren können – Amazon Nova bietet die Intelligenz und Flexibilität, die Sie benötigen: Verstehen und kreative Inhaltsgenerierung.

Amazon Nova Verständnismodelle akzeptieren Text-, Bild- oder Videoeingaben, um Textausgaben zu generieren. Amazon-Modelle zur Generierung kreativer Inhalte akzeptieren Text- und Bildeingaben, um Bild- oder Videoausgaben zu generieren.

Verständnismodelle: Text- und visuelle Intelligenz

Die Amazon Nova Modelle umfassen drei Verständnismodelle (ein viertes kommt bald hinzu), die für verschiedene Bedürfnisse konzipiert sind:

Amazon Nova Micro – Ein reines Textmodell, das die niedrigsten Latenzzeiten in der Amazon Nova Modellfamilie zu sehr geringen Kosten liefert. Mit einer Kontextlänge von 128K Tokens und optimiert für Geschwindigkeit und Kosten, eignet sich Amazon Nova Micro hervorragend für Aufgaben wie Textzusammenfassung, Übersetzung, Inhaltsklassifizierung, interaktiven Chat und Brainstorming sowie einfaches mathematisches Schlussfolgern und Codieren. Amazon Nova Micro unterstützt auch die Anpassung an proprietäre Daten durch Fine-Tuning und Modell-Destillation zur Verbesserung der Genauigkeit.

Amazon Nova Lite – Ein sehr kostengünstiges multimodales Modell, das blitzschnell Bild-, Video- und Texteingaben verarbeitet, um Textausgaben zu generieren. Amazon Nova Lite kann Echtzeit-Kundeninteraktionen, Dokumentenanalysen und visuelle Frage-Antwort-Aufgaben mit hoher Genauigkeit bewältigen. Das Modell verarbeitet Eingaben mit einer Länge von bis zu 300K Tokens und kann mehrere Bilder oder bis zu 30 Minuten Video in einer einzigen Anfrage analysieren. Amazon Nova Lite unterstützt auch Text- und multimodales Fine-Tuning und kann mit Techniken wie der Modell-Destillation optimiert werden, um die beste Qualität und Kosten für Ihren Anwendungsfall zu liefern.

Amazon Nova Pro – Ein hochleistungsfähiges multimodales Modell mit der besten Kombination aus Genauigkeit, Geschwindigkeit und Kosten für ein breites Spektrum von Aufgaben. Amazon Nova Pro kann bis zu 300K Eingabe-Tokens verarbeiten und setzt neue Maßstäbe in multimodaler Intelligenz und agentischen Workflows, die APIs und Tools aufrufen müssen, um komplexe Workflows abzuschließen. Es erreicht Spitzenleistungen bei wichtigen Benchmarks, einschließlich visueller Fragenbeantwortung (TextVQA[EN, EXTERN]) und Videoverständnis (VATEX[EN, EXTERN]). Amazon Nova Pro zeigt starke Fähigkeiten bei der Verarbeitung sowohl visueller als auch textueller Informationen und zeichnet sich bei der Analyse von Finanzdokumenten aus. Mit einem Eingabekontext von 300K Tokens kann es Codebasen mit über fünfzehntausend Codezeilen verarbeiten. Amazon Nova Pro dient auch als Lehrermodell zur Destillation benutzerdefinierter Varianten von Amazon Nova Micro und Lite.

Amazon Nova Premier – Unser leistungsfähigstes multimodales Modell für komplexe Reasoning-Aufgaben und als bester Lehrer für die Destillation benutzerdefinierter Modelle. Amazon Nova Premier befindet sich noch in der Trainingsphase. Wir streben eine Verfügbarkeit Anfang 2025 an.

Die Amazon Nova Modelle zeichnen sich in Retrieval-Augmented Generation (RAG), Funktionsaufrufen und agentischen Anwendungen aus. Dies spiegelt sich in den Bewertungen der Amazon Nova Modelle in der Comprehensive RAG Benchmark (CRAG) Evaluation, der Berkeley Function Calling Leaderboard (BFCL)[EN, EXTERN], VisualWebBench[EN, EXTERN] und Mind2Web[EN, EXTERN] wider.

Was Amazon Nova für Unternehmen besonders leistungsfähig macht, sind seine Anpassungsmöglichkeiten. Stellen Sie es sich wie einen maßgeschneiderten Anzug vor: Sie beginnen mit einer qualitativ hochwertigen Basis und passen diese genau an Ihre Bedürfnisse an. Sie können die Modelle mit Text, Bild und Video fein abstimmen, um die Terminologie Ihrer Branche zu verstehen, sie an Ihre Markensprache anzupassen und für Ihre spezifischen Anwendungsfälle zu optimieren. Eine Anwaltskanzlei könnte beispielsweise Amazon Nova anpassen, um juristische Terminologie und Dokumentstrukturen besser zu verstehen.

Die neuesten Benchmark-Ergebnisse für diese Modelle finden Sie auf der Amazon Nova Produktseite.

Kreative Inhaltsgenerierung: Konzepte zum Leben erwecken
Die Amazon Nova Modelle umfassen auch zwei Modelle zur kreativen Inhaltsgenerierung:

Amazon Nova Canvas – Ein hochmodernes Bildgenerierungsmodell, das Studioqualitätsbilder mit präziser Kontrolle über Stil und Inhalt produziert, einschließlich umfangreicher Bearbeitungsfunktionen wie Inpainting, Outpainting und Hintergrundentfernung. Amazon Nova Canvas überzeugt bei menschlichen Bewertungen und wichtigen Benchmarks wie der Text-zu-Bild-Treuebewertung mit Fragenbeantwortung (TIFA)[EN, EXTERN] und ImageReward[EN, EXTERN].

Amazon Nova Reel – Ein hochmodernes Videogenerierungsmodell. Mit Amazon Nova Reel können Sie kurze Videos durch Textaufforderungen und Bilder erstellen, den visuellen Stil und das Tempo steuern und professionelle Videoinhalte für Marketing, Werbung und Unterhaltung generieren. Amazon Nova Reel übertrifft bestehende Modelle bei menschlichen Bewertungen der Videoqualität und -konsistenz.

Alle Amazon Nova Modelle verfügen über integrierte Sicherheitskontrollen, und Amazon-Modelle zur Generierung kreativer Inhalte beinhalten Wasserzeichenfunktionen zur Förderung einer verantwortungsvollen KI-Nutzung.

Lassen Sie uns sehen, wie diese Modelle in der Praxis für einige Anwendungsfälle funktionieren.

Verwendung von Amazon Nova Pro für Dokumentenanalyse

Um die Fähigkeiten der Dokumentenanalyse zu demonstrieren, habe ich den Entscheidungsleitfaden Auswahl eines generativen KI-Dienstes im PDF-Format aus der AWS-Dokumentation heruntergeladen.

Zunächst wähle ich Modellzugriff im Navigationsbereich der Amazon Bedrock-Konsole und beantrage Zugriff auf die neuen Amazon Nova-Modelle. Dann wähle ich Chat/Text im Abschnitt Playground des Navigationsbereichs und wähle das Amazon Nova Pro-Modell aus. Im Chat lade ich das PDF des Entscheidungsleitfadens hoch und frage:

Write a summary of this doc in 100 words. Then, build a decision tree.

Die Ausgabe folgt meinen Anweisungen und erstellt einen strukturierten Entscheidungsbaum, der mir einen Einblick in das Dokument gibt, bevor ich es lese.

Verwendung von Amazon Nova Pro für Videoanalyse
Um die Videoanalyse zu demonstrieren, habe ich ein Video vorbereitet, indem ich zwei kurze Clips zusammengefügt habe (mehr dazu im nächsten Abschnitt):

Diesmal verwende ich das AWS SDK für Python (Boto3), um das Amazon Nova Pro-Modell mit der Amazon Bedrock Converse API aufzurufen und das Video zu analysieren:

import boto3

AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-pro-v1:0"
VIDEO_FILE = "the-sea.mp4"

bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
with open(VIDEO_FILE, "rb") as f:
    video = f.read()

user_message = "Describe this video."

messages = [ { "role": "user", "content": [
    {"video": {"format": "mp4", "source": {"bytes": video}}},
    {"text": user_message}
] } ]

response = bedrock_runtime.converse(
    modelId=MODEL_ID,
    messages=messages,
    inferenceConfig={"temperature": 0.0}
 )

response_text = response["output"]["message"]["content"][0]["text"]
print(response_text)

Amazon Nova Pro kann Videos analysieren, die mit der API hochgeladen wurden (wie im vorherigen Code) oder die in einem Amazon Simple Storage Service (Amazon S3)-Bucket gespeichert sind.

Im Skript bitte ich darum, das Video zu beschreiben. Ich führe das Skript von der Kommandozeile aus. Hier ist das Ergebnis:

The video begins with a view of a rocky shore on the ocean, and then transitions to a close-up of a large seashell resting on a sandy beach.

Ich kann eine detailliertere Aufforderung verwenden, um spezifische Informationen aus dem Video zu extrahieren, wie Objekte oder Text. Beachten Sie, dass Amazon Nova derzeit keine Audioinhalte in einem Video verarbeitet.

Verwendung von Amazon Nova für Videoerstellung
Jetzt erstellen wir ein Video mit Amazon Nova Reel, beginnend mit einer reinen Textaufforderung und dann mit einem Referenzbild.

Da die Generierung eines Videos einige Minuten dauert, hat die Amazon Bedrock API drei neue Operationen eingeführt:

StartAsyncInvoke – Um eine asynchrone Aufrufung zu starten

GetAsyncInvoke – Um den aktuellen Status einer bestimmten asynchronen Aufrufung abzurufen

ListAsyncInvokes – Um den Status aller asynchronen Aufrufungen mit optionalen Filtern wie Status oder Datum aufzulisten

Amazon Nova Reel unterstützt Kamerasteuerungsaktionen wie Zoomen oder Bewegen der Kamera. Dieses Python-Skript erstellt ein Video aus dieser Textaufforderung:

Closeup of a large seashell in the sand. Gentle waves flow all around the shell. Sunset light. Camera zoom in very close.

Nach dem ersten Aufruf überprüft das Skript regelmäßig den Status, bis die Erstellung des Videos abgeschlossen ist. Ich übergebe einen zufälligen Seed, um bei jedem Ausführen des Codes ein anderes Ergebnis zu erhalten.

import random
import time

import boto3

AWS_REGION = "us-east-1"
MODEL_ID = "amazon.nova-reel-v1:0"
SLEEP_TIME = 30
S3_DESTINATION_BUCKET = "<BUCKET>"

video_prompt = "Closeup of a large seashell in the sand. Gentle waves flow all around the shell. Sunset light. Camera zoom in very close."

bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)
model_input = {
    "taskType": "TEXT_VIDEO",
    "textToVideoParams": {"text": video_prompt},
    "videoGenerationConfig": {
        "durationSeconds": 6,
        "fps": 24,
        "dimension": "1280x720",
        "seed": random.randint(0, 2147483648)
    }
}

invocation = bedrock_runtime.start_async_invoke(
    modelId=MODEL_ID,
    modelInput=model_input,
    outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}}
)

invocation_arn = invocation["invocationArn"]
s3_prefix = invocation_arn.split('/')[-1]
s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"
print(f"\nS3 URI: {s3_location}")

while True:
    response = bedrock_runtime.get_async_invoke(
        invocationArn=invocation_arn
    )
    status = response["status"]
    print(f"Status: {status}")
    if status != "InProgress":
        break
    time.sleep(SLEEP_TIME)

if status == "Completed":
    print(f"\nVideo is ready at {s3_location}/output.mp4")
else:
    print(f"\nVideo generation status: {status}")

Ich führe das Skript aus:

Status: InProgress. . .
Status: Completed
Video is ready at s3://BUCKET/PREFIX/output.mp4

Nach einigen Minuten ist das Skript abgeschlossen und gibt den Ausgabeort im Amazon Simple Storage Service (Amazon S3) aus. Ich lade das Ausgabevideo mit der AWS Command Line Interface (AWS CLI) herunter:

aws s3 cp s3://BUCKET/PREFIX/output.mp4 ./output-from-text.mp4

Dies ist das resultierende Video. Wie angefordert, zoomt die Kamera auf das Subjekt.

Verwendung von Amazon Nova Reel mit einem Referenzbild

Um eine bessere Kontrolle über die Erstellung des Videos zu haben, kann ich Amazon Nova Reel ein Referenzbild wie das folgende zur Verfügung stellen:

Dieses Skript verwendet das Referenzbild und eine Textaufforderung mit einer Kameraaktion (drone view flying over a coastal landscape), um ein Video zu erstellen:

import base64import randomimport timeimport boto3S3_DESTINATION_BUCKET = "<BUCKET>"AWS_REGION = "us-east-1"MODEL_ID = "amazon.nova-reel-v1:0"SLEEP_TIME = 30input_image_path = "seascape.png"video_prompt = "drone view flying over a coastal landscape"bedrock_runtime = boto3.client("bedrock-runtime", region_name=AWS_REGION)# Load the input image as a Base64 string.with open(input_image_path, "rb") as f:    input_image_bytes = f.read()    input_image_base64 = base64.b64encode(input_image_bytes).decode("utf-8")model_input = {    "taskType": "TEXT_VIDEO",    "textToVideoParams": {        "text": video_prompt,        "images": [{ "format": "png", "source": { "bytes": input_image_base64 } }]        },    "videoGenerationConfig": {        "durationSeconds": 6,        "fps": 24,        "dimension": "1280x720",        "seed": random.randint(0, 2147483648)    }}invocation = bedrock_runtime.start_async_invoke(    modelId=MODEL_ID,    modelInput=model_input,    outputDataConfig={"s3OutputDataConfig": {"s3Uri": f"s3://{S3_DESTINATION_BUCKET}"}})invocation_arn = invocation["invocationArn"]s3_prefix = invocation_arn.split('/')[-1]s3_location = f"s3://{S3_DESTINATION_BUCKET}/{s3_prefix}"print(f"\nS3 URI: {s3_location}")while True:    response = bedrock_runtime.get_async_invoke(        invocationArn=invocation_arn    )    status = response["status"]    print(f"Status: {status}")    if status != "InProgress":        break    time.sleep(SLEEP_TIME)if status == "Completed":    print(f"\nVideo is ready at {s3_location}/output.mp4")else:    print(f"\nVideo generation status: {status}")

Wieder lade ich die Ausgabe mit der AWS CLI herunter:

aws s3 cp s3://BUCKET/PREFIX/output.mp4 ./output-from-image.mp4

Dies ist das resultierende Video. Die Kamera beginnt vom Referenzbild und bewegt sich vorwärts.

Verantwortungsvolle Entwicklung von KI
Bei der Entwicklung der Amazon Nova Modelle stehen die Sicherheit und das Vertrauen der Kunden im Mittelpunkt. So können Sie sich auf die Modelle verlassen und haben gleichzeitig die Möglichkeit, sie an Ihre individuellen Anwendungsfälle anzupassen.

Wir haben umfassende Sicherheitsfunktionen und Möglichkeiten zur Moderation von Inhalten integriert, damit Sie KI verantwortungsvoll einsetzen können. Jedes generierte Bild und Video enthält ein digitales Wasserzeichen.

Die Modelle der Amazon Nova Foundation sind mit Schutzfunktionen ausgestattet, die ihren erweiterten Fähigkeiten entsprechen. Amazon Nova erweitert unsere Sicherheitsmaßnahmen, um die Verbreitung von Fehlinformationen, Material zum sexuellen Missbrauch von Kindern (CSAM) und chemischen, biologischen, radiologischen oder nuklearen Gefahren (CBRN) zu bekämpfen.

Wissenswertes
Amazon Nova-Modelle sind in Amazon Bedrock in der AWS-Region US-Ost (Nord-Virginia) verfügbar. Amazon Nova Micro, Lite und Pro sind auch in den Regionen US-West (Oregon) und US-Ost (Ohio) über regionsübergreifende Inferenz verfügbar. Wie üblich bei Amazon Bedrock folgt die Preisgestaltung einem Pay-as-you-go-Modell. Weitere Informationen finden Sie unter Amazon Bedrock Preisgestaltung.

Die neue Generation der Amazon Nova Verständnismodelle spricht Ihre Sprache. Diese Modelle verstehen und generieren Inhalte in über 200 Sprachen, mit besonders starken Fähigkeiten in Englisch, Deutsch, Spanisch, Französisch, Italienisch, Japanisch, Koreanisch, Arabisch, vereinfachtem Chinesisch, Russisch, Hindi, Portugiesisch, Niederländisch, Türkisch und Hebräisch. Das bedeutet, Sie können wirklich globale Anwendungen erstellen, ohne sich um Sprachbarrieren oder die Pflege separater Modelle für verschiedene Regionen sorgen zu müssen. Amazon Nova-Modelle für kreative Inhaltserstellung unterstützen englische Prompts.

Bei der Erkundung von Amazon Nova werden Sie seine Fähigkeit entdecken, zunehmend komplexe Aufgaben zu bewältigen. Sie können diese Modelle verwenden, um umfangreiche Dokumente mit bis zu 300.000 Tokens zu verarbeiten, mehrere Bilder in einer einzigen Anfrage zu analysieren, bis zu 30 Minuten Videoinhalt zu verstehen und Bilder und Videos im großen Maßstab aus natürlicher Sprache zu generieren. Dies macht diese Modelle für eine Vielzahl von Geschäftsanwendungsfällen geeignet, von schnellen Kundenserviceinteraktionen bis hin zur tiefgehenden Analyse von Unternehmensdokumentationen und der Erstellung von Assets für Werbung, E-Commerce und Social-Media-Anwendungen.

Die Integration mit Amazon Bedrock macht die Bereitstellung und Skalierung unkompliziert. Sie können Funktionen wie Amazon Bedrock Knowledge Bases nutzen, um Ihr Modell mit proprietären Informationen zu erweitern, Amazon Bedrock Agents verwenden, um komplexe Workflows zu automatisieren, und Amazon Bedrock Guardrails implementieren, um verantwortungsvolle KI-Nutzung zu fördern. Die Plattform unterstützt Echtzeit-Streaming für interaktive Anwendungen, Batch-Verarbeitung für Workloads mit hohem Volumen und detailliertes Monitoring, um Ihnen bei der Optimierung der Leistung zu helfen.

Bereit, mit Amazon Nova zu beginnen? Probieren Sie die neuen Modelle noch heute in der Amazon Bedrock-Konsole aus, besuchen Sie den Abschnitt Amazon Nova-Modelle in der Amazon Bedrock-Dokumentation und senden Sie Feedback an AWS re:Post für Amazon Bedrock[EN]. Tiefgehende technische Inhalte und Entdeckungen, wie unsere Builder-Communities Amazon Bedrock nutzen, finden Sie unter community.aws[EN]. Lassen Sie uns wissen, was Sie mit diesen neuen Modellen bauen!

Über die Autoren

Danilo Poccia arbeitet mit Startups und Unternehmen jeder Größe zusammen, um deren Innovation zu unterstützen. In seiner Rolle als Chief Evangelist (EMEA) bei Amazon Web Services nutzt er seine Erfahrung, um Menschen dabei zu helfen, ihre Ideen zum Leben zu erwecken. Dabei konzentriert er sich auf serverlose Architekturen und ereignisgesteuerte Programmierung sowie auf die technischen und geschäftlichen Auswirkungen von maschinellem Lernen und Edge Computing. Er ist der Autor von „AWS Lambda in Action“ aus dem Manning-Verlag.

AWS Germany – Amazon Web Services in Deutschland

Wir stellen vor: Amazon Nova: Grenzüberschreitende Intelligenz und branchenführendes Preis-Leistungs-Verhältnis

Über die Autoren