Google Gemini Omni: Кескін, аудио және мәтінді бейнеге айналдыратын жаңа модель

Үш жыл бұрын Google компаниясы Gemini жобасын іске қосқанда, басты мақсат мәтін, кескін, аудио және бейне деректері негізінде оқытылған бірыңғай мультимодальды нейрожелі құру болды. Бүгін Google I/O конференциясында компанияның бас директоры Сундар Пичаи осы мақсатқа қарай жасалған маңызды қадам — Gemini Omni моделін таныстырды. Оның айтуынша, жаңа модель кез келген кіріс деректерінен қажетті контентті жасай алады. Бұл туралы Techcrunch.com хабарлайды .
Gemini Omni пайдаланушыларға кескін, аудио, бейне және мәтіндерді біріктіруге мүмкіндік береді. Деректерді жай ғана жинақтаудан өзгеше түрде, Omni олардың барлығын талдап, физика заңдылықтары, мәдениет, тарих және ғылым түсініктеріне негізделген жоғары сапалы бейнелерді ұсынады. Сондай-ақ, пайдаланушылар күрделі бағдарламаларсыз, қарапайым мәтіндік пәрмендер арқылы суреттерді өңдей алады.
Google DeepMind өкілі Николь Бричтова бұл жаңалықты Gemini интеллекті мен медиа модельдердің визуализациялау қабілетін біріктірудегі кезекті кезең деп атады. Мысалы, модельге ақуыздың бүктелуі туралы бейнесабақ дайындау пәрмені берілгенде, ол анимацияны жасап қана қоймай, процесті түсіндіретін дауыстық мәтінді де қосып береді.
Жаңа модель арқылы пайдаланушылар өздерінің цифрлық аватарларын да жасай алады. Deepfake қаупінің алдын алу мақсатында Google арнайы қауіпсіздік жүйесін енгізді: пайдаланушы өзін бейнеге түсіріп, белгілі бір сандарды айтуы талап етіледі. Содан кейін ғана аватар сақталады және болашақта пайдалануға рұқсат беріледі.
Gemini Omni арқылы жасалған барлық бейнелер Google-дің SynthID цифрлық су белгісімен қорғалады. Бұл пайдаланушыларға бейненің жасанды интеллект арқылы жасалғанын тексеруге мүмкіндік береді. Сундар Пичаи атап өткендей, жасанды интеллект енді жай ғана мәтінді болжаудан шындықты модельдеу кезеңіне өтуде.
“Zamin”-ді Telegram-нан оқыңыз!