Google presenta el nuevo modelo de IA multimodal Gemma 4 12B

Google ha presentado el nuevo modelo Gemma 4 12B, diseñado para funcionar localmente en portátiles y dispositivos con recursos de computación limitados. Este sistema de inteligencia artificial multimodal sirve como eslabón intermedio entre el compacto E4B y la gran arquitectura MoE de 26 mil millones de parámetros. La característica clave del modelo es que es el primer sistema de tamaño medio de su clase en admitir señales de audio de forma nativa. Según Ixbt.com informa .
Según los desarrolladores, Gemma 4 12B puede procesar imágenes y audio sin codificadores separados tradicionales. En su lugar, las señales multimodales se integran directamente en el modelo de lenguaje principal. Para el procesamiento de imágenes, se utiliza un módulo ligero basado en transformaciones matriciales en lugar de un codificador de visión separado, lo que reduce significativamente los costes computacionales.
Las señales de audio se proyectan en el espacio de tokens de texto en su forma cruda, sin ningún codificador. A pesar de la arquitectura simplificada, Gemma 4 12B muestra un rendimiento cercano al de los grandes modelos de 26 mil millones de parámetros en benchmarks estándar. Al mismo tiempo, es menos exigente con la memoria y funciona sin problemas en dispositivos con 16 GB de VRAM.
El modelo admite el mecanismo Multi-Token Prediction (MTP), que reduce la latencia en la generación de texto, y está diseñado para escenarios de agentes complejos. Según Google, la familia Gemma se ha descargado más de 150 millones de veces hasta la fecha. El nuevo modelo se distribuye bajo la licencia Apache 2.0, permitiendo a los usuarios aprovechar capacidades avanzadas de IA directamente en sus dispositivos sin servicios en la nube.















Comentarios 0
…