Google TurboQuant: KI-Speicher 6× effizienter nutzen

Eine sehr gute Freundin von mir und ich können alles mögliche gut zusammen machen, aber Autofahren gehört eher nicht dazu. Zu unterschiedliche Vorstellungen von dem Vorgang und der Handhabung.

Das sah man besonders gut, als es noch keine Navis gab: Während sie stets den Anspruch hatte, die ideale Route zu finden und zu fahren, war ich von Anfang so: Peile den nächsten Zielpunkt an, den du ggfs. kennst oder der groß genug ist, um ihn direkt zu finden – und von dort aus suchst du die Details, d.h. die genaue Adresse.

Unsere KIs, alias „Large Language Models“ haben vergleichbare Themen. Denn diese suchen das als nächstes zu erzeugende Token (die Sprach-Einheit der LLM, quasi ein Satz-Abschnitt) in einem hochdimensionalen Vektorraum (dem Bedeutungsraum) – und das Ziel ist dort nicht ein Punkt, sondern eher eine ganze Region.

Die derzeitgen KI-Systeme arbeiten häufig mit deutlich höherer numerischer Präzision, als eigentlich notwendig wäre. Verfahren wie TurboQuant (https://www.heise.de/news/TurboQuant-Google-will-den-Speicherhunger-grosser-LLMs-baendigen-11224445.html) zeigen, dass ein erheblicher Teil des Ressourcenverbrauchs durch effizientere Repräsentation vermeidbar ist, ohne die Qualität spürbar zu beeinträchtigen.

Google hat hier sehr wahrscheinlich einen entscheidenden Move.

Das Verfahren TurboQuant greift den größten Speicherfresser moderner LLMs an: den sogenannten KV-Cache (Zwischenspeicher für Kontext beim Generieren).

Die Kernidee von TurboQuant

Statt wie üblich 32 Bit pro Wert, werden nur noch ≈3 Bit benötigt

→ ~6× weniger Speicherbedarf

→ gleichzeitig bis zu 8× schneller (z. B. auf Nvidia H100)

Und laut Google: ohne messbaren Qualitätsverlust

Der Key-Value-Cache (KV-Cache) ist ein Zwischenspeicher, den ein Sprachmodell während der Generierung nutzt, um bereits berechnete Informationen nicht ständig neu berechnen zu müssen.

Was heißt das konkret?

Bei jedem erzeugten Token berechnet das Modell sogenannte Keys (K) und Values (V) für die Attention. Diese repräsentieren, vereinfacht gesagt, den bisherigen Kontext.

Anstatt bei jedem neuen Token den gesamten bisherigen Text erneut durch das Modell zu schicken, werden die Keys und Values aller vorherigen Tokens im KV-Cache gespeichert. Für das nächste Token wird dann nur noch das neue Token berechnet und mit den bereits gespeicherten K/V-Werten kombiniert.

Der Effekt

massive Beschleunigung, weil Wiederholungsrechnungen entfallen

aber auch hoher Speicherverbrauch, weil für jedes Token Daten im Cache abgelegt werden

Kurz gesagt:
Der KV-Cache ist der Mechanismus, der es LLMs ermöglicht, effizient über längere Texte hinweg „kontextbewusst“ weiterzuschreiben ohne jedes Mal von vorne zu rechnen.

Nun wirkt es intuitiv völlig absurd, dass nur etwa 3 Bit (also 8 Zustände) ausreichen sollen, um Informationen in einem Large Language Model sinnvoll zu repräsentieren. Der Schlüssel zum Verständnis liegt darin, dass solche Modelle keine exakten Zahlen benötigen, sondern mit statistischen Mustern, dafür aber in hochdimensionalen Räumen arbeiten.

Dabei sind LLMs grundsätzlich fehlertolerant. Ob ein Wert beispielsweise 0.123 oder 0.118 beträgt, ist meist unerheblich. Entscheidend ist vielmehr die relative Struktur: also die Richtung eines Vektors und seine Beziehung zu anderen Vektoren. Kleine numerische Abweichungen verändern diese Struktur, also das nächste generierte Element, oft nicht wesentlich.

Zweitens ist der KV-Cache, auf den sich TurboQuant bezieht, besonders gut für Kompression geeignet. Er speichert Zwischenergebnisse der Attention (Keys und Values), wird aber nicht trainiert, sondern nur während der Inferenz gelesen. Außerdem enthält er viele Redundanzen. Die gespeicherten Werte müssen daher nicht exakt rekonstruiert werden, sondern lediglich ausreichend gut, damit die Attention weiterhin korrekt funktioniert.

Drittens nutzt TurboQuant eine strukturelle Umformung der Daten (PolarQuant). Anstatt jede Dimension eines Vektors separat mit hoher Präzision zu speichern, wird der Vektor in Richtung (Winkel) und Größe (Magnitude) zerlegt. Die Richtung trägt den Großteil der relevanten Information, während viele Dimensionen ohnehin korreliert sind. Dadurch lässt sich die wesentliche Geometrie des Vektorraums mit sehr wenigen Bits erhalten.

Viertens wird die grobe Quantisierung durch einen gezielten Fehlerkorrekturmechanismus ergänzt (QJL). Statt hohe Präzision direkt zu speichern, akzeptiert man zunächst starke Vereinfachung und ergänzt diese durch minimale Zusatzinformation (z. B. ein einzelnes Bit), das hilft, systematische Fehler auszugleichen. So wird aus einer sehr groben Darstellung wieder eine überraschend präzise Approximation.

Fünftens spielt die hohe Dimensionalität eine zentrale Rolle. LLMs arbeiten mit Vektoren, die oft tausende Dimensionen haben. Fehler in einzelnen Dimensionen verhalten sich dabei wie statistisches Rauschen und mitteln sich über viele Dimensionen hinweg aus. Das Gesamtsignal bleibt stabil, ähnlich wie ein leicht verrauschtes Bild trotzdem klar erkennbar bleibt.

Sechstens ist auch der eigentliche Attention-Mechanismus robust gegenüber kleinen Fehlern. Er basiert im Kern auf Ähnlichkeitsberechnungen (Dot Products). Geringe Abweichungen in einzelnen Werten verändern diese Ähnlichkeiten oft nicht stark genug, um die Rangfolge relevanter Tokens zu beeinflussen. Die semantisch wichtigen Beziehungen bleiben daher erhalten.

Zusammengefasst liegt die Erklärung darin, dass das Modell keine exakten Zahlen benötigt, sondern nur eine hinreichend korrekte geometrische Struktur im Vektorraum. Solange diese Struktur erhalten bleibt – insbesondere die relativen Richtungen und Ähnlichkeiten – kann die Präzision der einzelnen Werte drastisch reduziert werden.

TurboQuant zeigt in Benchmarks mit Modellen wie Llama und Ministral eine etwa 6-fache Reduktion des KV-Speichers bei gleicher Genauigkeit (z. B. 0,997 im Needle-in-a-Haystack-Test), ohne dass Training oder Feintuning nötig ist. Gleichzeitig umgeht es Nachteile bestehender Verfahren wie Product Quantization (hoher Trainingsaufwand) und RaBitQ (fehlende GPU-Effizienz).

Google sieht den Einsatz vor allem in großen Modellen wie Gemini und in der semantischen Vektorsuche, wo sich durch geringeren Speicherbedarf und weniger Preprocessing deutliche Effizienzgewinne erzielen lassen.

Fazit 1:

Das ist, neben Informatik, alles pure Physik. Ist doch ganz nett, das mal studiert zu haben. J

Fazit 2:

Angesichts der Entwicklungen im (Speicher-)Chip-Markt – und übrigens auch bei der Energie-Frage, werden Kompressionsalgorithmen eine wichtige Rolle spielen.

Und sollte die Qualität der generierten Antworten doch mal zu sehr leiden, werden wir es ja merken.

Hoffentlich.

Autor

Michael Wessel

Consulting

Lösungen

Consulting

Lösungen

Consulting

Lösungen

Google TurboQuant

Die Kernidee von TurboQuant

Was heißt das konkret?

Der Effekt

Fazit 1:

Fazit 2:

Autor

Diese Blogartikel könnte Sie auch interessieren

Kommentar schreiben Antwort abbrechen