Google Gemini Omni: Ein neues Modell, das Bilder, Audio und Text in Videos umwandelt

04:56 / 20.05.2026·225·Technologie

Als Google vor drei Jahren das Gemini-Projekt startete, war das Hauptziel die Schaffung eines einzigen multimodalen neuronalen Netzwerks, das auf Text-, Bild-, Audio- und Videodaten trainiert wurde. Heute stellte CEO Sundar Pichai auf der Google I/O-Konferenz einen wichtigen Schritt in Richtung dieses Ziels vor: das Modell Gemini Omni. Ihm zufolge kann das neue Modell aus jeder Eingabe beliebige Inhalte generieren. Dies berichtet Techcrunch.com berichtet .

Gemini Omni ermöglicht es Benutzern, Bilder, Audio, Video und Text zu kombinieren. Im Gegensatz zur bloßen Zusammenführung von Daten analysiert Omni alles, um hochwertige Videos bereitzustellen, die auf physikalischen Gesetzen, Kultur, Geschichte und wissenschaftlichen Konzepten basieren. Benutzer können Bilder auch ohne komplexe Software durch einfache Texteingaben bearbeiten.

Nicole Brichtova von Google DeepMind bezeichnete diese Neuerung als nächsten Schritt bei der Kombination der Gemini-Intelligenz mit den Visualisierungsfähigkeiten von Medienmodellen. Wenn man dem Modell beispielsweise den Befehl gibt, ein Video-Tutorial über Proteinfaltung zu erstellen, erstellt es nicht nur die Animation, sondern fügt auch einen erklärenden Kommentar hinzu.

Mit dem neuen Modell können Benutzer auch ihre eigenen digitalen Avatare erstellen. Um das Risiko von Deepfakes zu verhindern, hat Google ein spezielles Sicherheitssystem eingeführt: Der Benutzer muss sich per Video aufnehmen und bestimmte Zahlen nennen. Erst dann wird der Avatar gespeichert und für die zukünftige Verwendung autorisiert.

Alle mit Gemini Omni erstellten Videos sind durch das digitale Wasserzeichen SynthID von Google geschützt. Dies ermöglicht es Benutzern zu überprüfen, ob das Video von künstlicher Intelligenz erstellt wurde. Wie Sundar Pichai betonte, entwickelt sich die künstliche Intelligenz von der bloßen Textvorhersage hin zur Simulation der Realität.