Neue Komprimierung könnte KI-Kosten senken

09:46 / 30.03.2026·80·Technologie

Google hat mit TurboQuant eine Methode vorgestellt, die auf eines der größten Hardware-Probleme der künstlichen Intelligenz abzielt: den Speicher. Anstatt sich nur auf größere und teurere Chips zu verlassen, besteht die Idee darin, die Datenmenge zu verkleinern, die große Sprachmodelle beim Erzeugen von Text im Speicher halten müssen. Das könnte sowohl für Unternehmen wichtig sein, die KI-Systeme bauen, als auch für Investoren, die den Markt für Speicherchips beobachten. Darüber berichtet Adlrocha.substack.com.

Große Sprachmodelle arbeiten, indem sie jeweils ein Token vorhersagen und dabei ständig auf frühere Tokens zurückgreifen. Um das effizient zu tun, speichern sie Schlüssel- und Wertdaten aus vorherigen Schritten in einem sogenannten KV-Cache. Dieser Cache hilft dabei, dieselben Berechnungen nicht zu wiederholen, wächst jedoch mit jedem neuen Token. In langen Chats, Programmiersitzungen oder Aufgaben zur Dokumentenanalyse kann der Speicherbedarf enorm werden.

TurboQuant zielt auf diesen KV-Cache ab. Laut dem Ausgangsmaterial komprimiert die Technik die gespeicherten Vektoren, ohne einen nennenswerten Verlust bei der Modellgenauigkeit zu verursachen. Vereinfacht gesagt versucht sie, die Vorteile eines großen Speichervorrats zu erhalten und dabei weniger physischen Speicher auf der GPU zu nutzen. Das könnte die Effizienz der Inferenz verbessern und den Druck auf die Versorgung mit High-Bandwidth-Speicher verringern.

Wenn sich solche Methoden im großen Maßstab als wirksam erweisen, könnten sie die Diskussion über KI-Infrastruktur leicht verändern. Die Nachfrage nach fortschrittlichem Speicher dürfte zwar stark bleiben, doch intelligentere Komprimierung könnte verlangsamen, wie schnell der Hardwarebedarf wächst. Für die Branche bedeutet das, dass bessere Software beginnen könnte, einen Teil eines Problems zu lösen, von dem viele erwartet hatten, dass allein die Hardware es behebt.