Google Gemini Omni: Un nuevo modelo que convierte imágenes, audio y texto en video

04:56 / 20.05.2026·225·Tecnología

Hace tres años, cuando Google lanzó el proyecto Gemini, el objetivo principal era crear una red neuronal multimodal única entrenada con datos de texto, imagen, audio y video. Hoy, en la conferencia Google I/O, el CEO Sundar Pichai presentó un paso importante hacia este objetivo: el modelo Gemini Omni. Según él, el nuevo modelo puede generar cualquier contenido a partir de cualquier dato de entrada. Así lo informa Techcrunch.com informa .

Gemini Omni permite a los usuarios combinar imágenes, audio, video y texto. A diferencia de la simple agregación de datos, Omni analiza todo para proporcionar videos de alta calidad basados en las leyes de la física, la cultura, la historia y conceptos científicos. Los usuarios también podrán editar imágenes mediante sencillas instrucciones de texto sin necesidad de software complejo.

La representante de Google DeepMind, Nicole Brichtova, calificó esta innovación como la siguiente etapa en la combinación de la inteligencia de Gemini con las capacidades de visualización de los modelos de medios. Por ejemplo, cuando se le da la orden de preparar un tutorial en video sobre el plegamiento de proteínas, el modelo no solo crea la animación, sino que también añade una narración explicando el proceso.

Con el nuevo modelo, los usuarios también pueden crear sus propios avatares digitales. Para evitar el riesgo de deepfakes, Google ha introducido un sistema de seguridad especial: se requiere que el usuario se grabe en video y diga números específicos. Solo entonces se guarda el avatar y se autoriza para su uso futuro.

Todos los videos creados a través de Gemini Omni están protegidos por la marca de agua digital SynthID de Google. Esto permite a los usuarios verificar que el video fue creado por inteligencia artificial. Como señaló Sundar Pichai, la inteligencia artificial está pasando de la simple predicción de texto a la etapa de simulación de la realidad.