Google yangi Gemma 4 12B multimodal sunʼiy intellekt modelini taqdim etdi

Google kompaniyasi noutbuklar va cheklangan hisoblash resurslariga ega qurilmalarda lokal ishlashga moʻljallangan yangi Gemma 4 12B modelini namoyish qildi. Ushbu multimodal sunʼiy intellekt tizimi ixcham E4B hamda 26 milliard parametrli yirik MoE arxitekturasi oʻrtasidagi oraliq boʻgʻin hisoblanadi. Modelning asosiy oʻziga xosligi — u oʻz turkumida audio signallarni bevosita (nativ) qoʻllab-quvvatlaydigan birinchi oʻrta hajmli tizimdir. Bu haqda Ixbt.com xabar beradi.
Ishlab chiquvchilarning taʼkidlashicha, Gemma 4 12B tasvir va audioni qayta ishlash uchun anʼanaviy alohida enkoderlarsiz ishlay oladi. Buning oʻrniga multimodal signallar toʻgʻridan-toʻgʻri asosiy til modeliga integratsiya qilingan. Tasvirlarni qayta ishlashda alohida vision-enkoder oʻrniga matritsali oʻzgartirishlarga asoslangan yengil modul qoʻllanilgan, bu esa hisoblash xarajatlarini sezilarli darajada kamaytiradi.
Audio signallar esa hech qanday enkoderlarsiz, xom signal koʻrinishida matnli tokenlar maydoniga proyeksiyalanadi. Soddalashtirilgan arxitekturaga qaramay, Gemma 4 12B standart benchmarklarda 26 milliard parametrli yirik modellarga yaqin samaradorlikni koʻrsatmoqda. Shu bilan birga, u xotiraga kamroq talabchan boʻlib, 16 GB videoxotiraga ega qurilmalarda bemalol ishga tushadi.
Model matn yaratishdagi kechikishlarni kamaytiradigan Multi-Token Prediction (MTP) mexanizmini qoʻllab-quvvatlaydi va murakkab agentlik ssenariylari uchun moʻljallangan. Google maʼlumotlariga koʻra, Gemma turkumi hozirgacha 150 milliondan ortiq marta yuklab olingan. Yangi model Apache 2.0 litsenziyasi ostida tarqatilmoqda va foydalanuvchilarga bulutli xizmatlarsiz, bevosita oʻz qurilmalarida ilgʻor sunʼiy intellekt imkoniyatlaridan foydalanish imkonini beradi.





























Izohlar 0
…