Google Gemini Omni: новая модель для создания видео из изображений, аудио и текста

Три года назад, когда Google запустила проект Gemini, главной целью было создание единой мультимодальной нейросети, обученной на текстовых, визуальных, аудио- и видеоданных. Сегодня на конференции Google I/O генеральный директор компании Сундар Пичаи представил важный шаг к этой цели — модель Gemini Omni. По его словам, новая модель способна создавать любой контент из любых входных данных. Об этом сообщает Techcrunch.com сообщает .
Gemini Omni позволяет пользователям объединять изображения, аудио, видео и текст. В отличие от простого агрегирования данных, Omni анализирует их все и создает высококачественные видео, основанные на законах физики, культуре, истории и научных концепциях. Кроме того, пользователи смогут редактировать изображения с помощью простых текстовых команд без использования сложных программ.
Представитель Google DeepMind Николь Бричтова назвала эту новинку следующим этапом объединения интеллекта Gemini и возможностей визуализации медиамоделей. Например, при получении команды на создание видеоурока о фолдинге белка модель не только создает анимацию, но и добавляет озвучку, объясняющую процесс.
С помощью новой модели пользователи также могут создавать свои цифровые аватары. Для предотвращения рисков Deepfake компания Google внедрила специальную систему безопасности: пользователю необходимо записать себя на видео и произнести определенные цифры. Только после этого аватар сохраняется и получает разрешение на дальнейшее использование.
Все видео, созданные с помощью Gemini Omni, защищены цифровым водяным знаком SynthID от Google. Это позволяет пользователям проверять, было ли видео создано искусственным интеллектом. Как отметил Сундар Пичаи, искусственный интеллект переходит от простого прогнозирования текста к этапу симуляции реальности.
Читайте «Zamin» в Telegram!