Google TurboQuant 宣稱 KV Cache 壓縮 6 倍且零精度損失，但關鍵考驗在 ICLR

Google Research 發表 TurboQuant，無需重新訓練即可將 LLM 的 KV 快取從 16 位元壓縮至約 3 位元，宣稱 6 倍記憶體縮減與 8 倍注意力加速且零精度損失。該技術將於 ICLR 2026 接受同儕審查。

2026年4月5日 1 分鐘閱讀

每隔幾年，AI 效率領域就會出現一篇論文，若其主張能通過同儕審查，便足以改寫整個領域的經濟學。Google 於 3 月 25 日發表、即將在 ICLR 2026 接受正式檢驗的 TurboQuant，或許正是這樣一篇論文。其主張是：在無需重新訓練模型的前提下，將大型語言模型推論的記憶體佔用縮減 6 倍、注意力計算加速 8 倍，且無可量測的精度損失。

若這些數字在規模化場景下站得住腳，對全球每一位 GPU 運算業者都意義重大。

KV Cache 是什麼，為何如此關鍵？

理解 TurboQuant，必須先理解 KV（鍵值）快取為何是大型語言模型推論的核心瓶頸。語言模型生成文字時，每個新生成的 Token 都需要「關注」上下文視窗中的所有前序 Token。為避免每個生成步驟都重新計算這些中間注意力狀態，Transformer 架構將其儲存在 GPU 記憶體的快取中——這就是 KV 快取。

小規模時，此設計高效。大規模時，它從兩個方向製造瓶頸：

記憶體消耗隨上下文長度與批次大小線性增長。 一個 700 億參數的模型，在 128k Token 上下文視窗下服務 64 位並行用戶，所需 KV 快取記憶體往往超過模型權重本身，在單一節點上可達數百 GB。
記憶體頻寬成為推論速度上限。 現代 H100 GPU 的計算吞吐量極高，但記憶體頻寬相對受限。KV 快取越大，GPU 花在搬移資料而非實際計算上的時間越多。

因此，在不引入誤差的前提下縮減 KV 快取，絕非學術習作——它直接對應到更低的服務成本（每位並行用戶所需 GPU 更少），或在現有硬體成本下支援更長的實用上下文視窗。

TurboQuant 的技術原理

TurboQuant 分兩個階段處理。第一階段是 PolarQuant，應對 KV 快取值分布不均勻的統計難題。標準量化在低位元寬時效果不佳，因為離群值對注意力品質的影響遠超比例。PolarQuant 識別一組能捕捉鍵值表示中絕大部分變異數的「極性向量」，並以極低位元寬（約 2 至 3 位元）編碼投影後的殘差。

第二階段應用量化 Johnson-Lindenstrauss（QJL）投影——一種隨機降維方法，進一步壓縮殘差表示，同時保留注意力評分所需的內積關係。

在 NVIDIA H100 GPU 上的基準測試結果：KV 快取從 16 位元浮點壓縮至約 3 至 3.5 位元；總 KV 快取記憶體佔用縮減 6 倍；注意力計算步驟本身宣稱加速 8 倍。

關鍵在於，TurboQuant 無需訓練、與資料無關：不需要訓練資料、無需額外微調，可事後套用於任何預訓練 Transformer 模型。Google 已在 Llama 3、Mistral 及內部模型架構上展示結果。

值得關注的質疑聲音

在下結論前，The Register 於 4 月 1 日發表的分析值得細讀。該媒體提出幾個重要警語：

8 倍加速僅適用於注意力計算步驟，而非端到端推論延遲。在典型的 LLM 服務架構中，注意力只是眾多瓶頸之一，其他還包括前饋網路（FFN）層、分詞、取樣及 I/O 開銷。實際時脈推論時間的改善幅度，可能遠不如孤立的注意力基準測試所示。

零精度損失的宣稱是基於基準測試評估，而非真實生產資料分布。量化的偏差效應可能在邊緣輸入中浮現——尤其是長上下文、多語言文字或專業領域——而這些情境在標準評估中往往難以被發現。

實際記憶體節省高度依賴工作負載。 在高吞吐量服務情境（長上下文、大批次）中，6 倍縮減極具意義。但在低延遲單用戶聊天機器人場景中，KV 快取可能並非綁約束，TurboQuant 的效益便大幅降低。

ICLR 的關鍵考驗

ICLR 2026 在里約熱內盧（4 月下旬）的正式同儕審查，將讓 TurboQuant 接受量化與效率研究社群的對抗性檢驗。社群最可能深入探討的問題包括：

當上下文長度超出測試範圍時，壓縮品質如何退化？
面對結構化對抗性輸入時，隨機 JL 投影的失效模式為何？
能否與現有 KV 快取驅逐方法（如 H2O 或 StreamingLLM）結合，實現疊加效益？

Google 承諾在 ICLR 後釋出官方實作。雲端運算業者與 LLM 推論新創已可從預印本中研究程式碼；若 ICLR 反應正面，生產環境部署預計將在數週內跟進。

推論經濟學的賭注

TurboQuant 的商業背景相當直觀。AI 推論市場預計到 2028 年年規模突破 1000 億美元，GPU 記憶體與記憶體頻寬是主要成本驅動因素。在不犧牲品質的前提下降低記憶體需求，對每一家主要雲端業者及運行大規模 LLM 推論工作負載的企業都有直接的財務影響。

Google 以前所未有的規模運行 Gemini 推論服務。即便 TurboQuant 的宣稱只有保守的 20% 真實提升，在超大規模業者的量級下，也意味著數十億美元的基礎設施開支節省。

ICLR 的評審結果將告訴我們，TurboQuant 究竟是真正的突破，還是包裝精美的漸進式改進。無論如何，這項技術的發表已提升了研究社群對「訓練無關 KV 快取壓縮」可達成水準的基準認知——而這個基準的位移，本身就有其價值。

資料來源

google 量化壓縮 kv快取推論效率大型語言模型 iclr h100