Google Gemini Omni : Un nouveau modèle qui convertit images, audio et texte en vidéo

04:56 / 20.05.2026·225·Technologie

Il y a trois ans, lorsque Google a lancé le projet Gemini, l'objectif principal était de créer un réseau neuronal multimodal unique entraîné sur des données textuelles, d'images, audio et vidéo. Aujourd'hui, lors de la conférence Google I/O, le PDG Sundar Pichai a présenté une étape importante vers cet objectif : le modèle Gemini Omni. Selon lui, le nouveau modèle peut générer n'importe quel contenu à partir de n'importe quelle donnée d'entrée. C'est ce que rapporte Techcrunch.com rapporte .

Gemini Omni permet aux utilisateurs de combiner images, audio, vidéo et texte. Contrairement à une simple agrégation de données, Omni analyse l'ensemble pour fournir des vidéos de haute qualité basées sur les lois de la physique, la culture, l'histoire et des concepts scientifiques. Les utilisateurs pourront également modifier des images via de simples commandes textuelles sans logiciels complexes.

Nicole Brichtova, représentante de Google DeepMind, a qualifié cette innovation d'étape suivante dans la combinaison de l'intelligence de Gemini avec les capacités de visualisation des modèles médiatiques. Par exemple, lorsqu'on lui demande de préparer un tutoriel vidéo sur le repliement des protéines, le modèle crée non seulement l'animation, mais ajoute également une voix off expliquant le processus.

Avec le nouveau modèle, les utilisateurs peuvent également créer leurs propres avatars numériques. Pour éviter les risques de deepfake, Google a introduit un système de sécurité spécial : l'utilisateur doit se filmer en vidéo et prononcer des chiffres spécifiques. Ce n'est qu'ensuite que l'avatar est enregistré et autorisé pour une utilisation future.

Toutes les vidéos créées via Gemini Omni sont protégées par le filigrane numérique SynthID de Google. Cela permet aux utilisateurs de vérifier que la vidéo a été créée par l'intelligence artificielle. Comme l'a souligné Sundar Pichai, l'intelligence artificielle passe de la simple prédiction de texte à l'étape de la simulation de la réalité.