Google stellt neues multimodales KI-Modell Gemma 4 12B vor

Google hat das neue Modell Gemma 4 12B vorgestellt, das für den lokalen Betrieb auf Laptops und Geräten mit begrenzten Rechenressourcen entwickelt wurde. Dieses multimodale System künstlicher Intelligenz dient als Bindeglied zwischen dem kompakten E4B und der großen MoE-Architektur mit 26 Milliarden Parametern. Das Hauptmerkmal des Modells ist, dass es das erste mittelgroße System seiner Klasse ist, das Audiosignale nativ unterstützt. Laut Ixbt.com berichtet .
Laut den Entwicklern kann Gemma 4 12B Bilder und Audio ohne herkömmliche separate Encoder verarbeiten. Stattdessen werden multimodale Signale direkt in das zentrale Sprachmodell integriert. Für die Bildverarbeitung wird ein leichtgewichtiges Modul auf Basis von Matrixtransformationen anstelle eines separaten Vision-Encoders verwendet, was die Rechenkosten erheblich senkt.
Audiosignale werden ohne Encoder in ihrer Rohform in den Text-Token-Raum projiziert. Trotz der vereinfachten Architektur zeigt Gemma 4 12B in Standard-Benchmarks eine Leistung, die großen Modellen mit 26 Milliarden Parametern nahekommt. Gleichzeitig ist es speicherschonender und läuft problemlos auf Geräten mit 16 GB VRAM.
Das Modell unterstützt den Multi-Token Prediction (MTP)-Mechanismus, der die Latenz bei der Textgenerierung reduziert, und ist für komplexe Agentenszenarien konzipiert. Laut Google wurde die Gemma-Familie bisher mehr als 150 Millionen Mal heruntergeladen. Das neue Modell wird unter der Apache 2.0-Lizenz vertrieben und ermöglicht es Nutzern, fortschrittliche KI-Funktionen direkt auf ihren Geräten ohne Cloud-Dienste zu nutzen.















Kommentare 0
…