Google Gemini Омни: новая модель для создания видео из изображений, аудио и текста

04:56 / 20.05.2026·224·Технологии

Три года назад, когда Google запустила проект Gemini, главной целью было создание единой мультимодальной нейросети, обученной на текстовых, визуальных, аудио- и видеоданных. Сегодня на конференции Google И/О генеральный директор компании Сундар Пичаи представил важный шаг к этой цели — модель Gemini Омни. По его словам, новая модель способна создавать любой контент из любых входных данных. Об этом сообщает Techcrunch.ком сообщает .

Gemini Омни позволяет пользователям объединять изображения, аудио, видео и текст. В отличие от простого агрегирования данных, Омни анализирует их все и создает высококачественные видео, основанные на законах физики, культуре, истории и научных концепциях. Кроме того, пользователи смогут редактировать изображения с помощью простых текстовых команд без использования сложных программ.

Представитель Google DeepMind Николь Бричтова назвала эту новинку следующим этапом объединения интеллекта Gemini и возможностей визуализации медиамоделей. Например, при получении команды на создание видеоурока о фолдинге белка модель не только создает анимацию, но и добавляет озвучку, объясняющую процесс.

С помощью новой модели пользователи также могут создавать свои цифровые аватары. Для предотвращения рисков Дипфаке компания Google внедрила специальную систему безопасности: пользователю необходимо записать себя на видео и произнести определенные цифры. Только после этого аватар сохраняется и получает разрешение на дальнейшее использование.

Все видео, созданные с помощью Gemini Омни, защищены цифровым водяным знаком СйнтИД от Google. Это позволяет пользователям проверять, было ли видео создано искусственным интеллектом. Как отметил Сундар Пичаи, искусственный интеллект переходит от простого прогнозирования текста к этапу симуляции реальности.