AI 定價戰不是炒作：Token 成本三年崩跌 99%——以及接下來會發生什麼

自 2023 年 GPT-4 推出以來，AI 智慧的價格已下跌逾 99%。前沿模型現已可以每百萬 Token 不到 3 美元的價格取得，預算級 API 甚至跌破 0.10 美元。DeepSeek 的激進定價迫使所有主要供應商重新定價，而最新一輪——GPT-5.5 的 2.25 美元、Gemini Flash-Lite 的 0.25 美元、GLM-4.7 的 0.11 美元——確認了這波崩跌是結構性的，而非週期性的。弔詭的是：企業的 AI 帳單仍在上漲。

1 小時前 2 分鐘閱讀

三年前，透過 API 使用 GPT-4，每百萬個輸入 Token 需花費 30 美元。今天，OpenAI 的 GPT-5.5——一個能力遠更強大的模型——每百萬輸入 Token 的費用是 2.25 美元。Google 的 Gemini Flash-Lite 是 0.25 美元。中國智譜 AI 的 GLM-4.7 是 0.11 美元。而價格底線還在繼續下探。

2025 至 2026 年的 AI API 定價戰，帶來了企業軟體史上最劇烈的通縮浪潮之一。問題已不再是「AI 有沒有變便宜」——答案顯而易見——而是：便宜的 AI 究竟改變了企業購買和部署的方式嗎？那些爭相殺價的供應商，這門生意的帳是否算得過去？

簡短的答案是：情況很複雜。

崩跌背後的數字

當以具體的模型世代逐一對照，這場崩跌最為清晰。GPT-4 於 2023 年 3 月上市時，輸入 Token 每百萬 30 美元、輸出每百萬 60 美元——這個定價讓大多數應用場景的大規模企業部署幾乎無從負擔。到 2024 年中，GPT-4o 已將其砍至每百萬 5 美元。2026 年初的 GPT-5 降至 3 美元。2026 年 4 月 23 日發布的 GPT-5.5 落在 2.25 美元。

預算端的軌跡更加戲劇化。2024 年中推出的 Gemini 1.5 Flash，突破了每百萬 1 美元的關卡。現已上市的 Gemini Flash-Lite，定價為每百萬輸入 Token 0.25 美元——這個價位對一個前沿級模型來說，在 18 個月前根本難以想像。在極端預算端，GLM-4.7 以及透過雲端推論平台部署的多個開源模型，每百萬 Token 的費用介於 0.10 到 0.15 美元之間。

Epoch AI 的推論定價追蹤數據顯示，自 2023 年初以來，等效能力的 AI 推論成本每年下降約 10 倍。這個速度略快於摩爾定律的歷史速率——不僅因為硬體本身變便宜了，更因為架構創新持續放大了硬體成本的降幅。

推動崩跌的四股力量

這波定價崩跌是四股匯流力量的共同產物，各自都舉足輕重，組合在一起更相互強化。

**混合專家架構（Mixture-of-Experts, MoE）**是最關鍵的。GPT-5.5、Gemini 3.1 和 DeepSeek V4 全都是 MoE 系統：每次推論不需啟動所有模型參數，而是將運算路由至專門處理特定查詢的子網路。實際效果是，MoE 模型能以比同等規模密集模型低 60-80% 的每 Token 運算成本，達到相當的效能。2025 至 2026 年間，所有主要 AI 實驗室都已將生產模型轉向 MoE 架構。

新一代推論硬體放大了架構帶來的效益。NVIDIA H200 和 Blackwell B200 加速器、Google Ironwood TPU，以及亞馬遜（Trainium3）和 Meta（MTIA 3）的定制晶片，都比前一代硬體提供顯著更高的每美元推論吞吐量。今年四月在 Google Cloud Next 上發布的 Ironwood TPU，每個 Pod 可提供 42.5 exaflops 的運算能力——是上一代 TPU 吞吐量的約 10 倍——並已承擔 Gemini 推論的相當大比例。

規模經濟完成了剩下的算術。2024 年和 2025 年，API 呼叫量分別實現年增 5 至 10 倍，讓供應商得以將固定數據中心成本分攤至大幅增加的推論請求上。一天內第一千萬次 API 呼叫的邊際成本，是前一千次的幾分之一。

DeepSeek 刻意施加的壓力是將漸進式下滑轉化為急速崩跌的意外變數。2024 年 12 月，DeepSeek 發布 V3 模型——以遠低於 OpenAI 和 Google 同類產品的定價提供，但基準測試成績同樣亮眼——引發了一波重新定價的連鎖反應。90 天內，所有主要西方供應商都下調了中等層級模型的定價。2026 年 4 月發布的 DeepSeek V4 再次啟動了這個循環。

弔詭之處：價格跌了，帳單卻漲了

AI 定價戰中最違反直覺的事實，是儘管單位成本崩跌，企業的 AI 支出卻在上升，而非下降。

解釋在於代理 AI（agentic AI）。一次標準的聊天機器人互動，大約消耗 1,000 到 5,000 個 Token。一個代理工作流程——AI 模型規劃多步驟任務、呼叫外部工具、讀取檢索到的文件、維護長期上下文、再寫回資料庫——完成一個單一任務，可能消耗 50,000 到 500,000 個 Token。每 Token 成本下降 10 倍，已被每個業務成果消耗的 Token 增加 50 至 200 倍所抵消並超越。

中型科技公司的財務團隊反映，儘管身處降價環境，過去十二個月的每月 API 帳單仍增加了 3 到 8 倍，原因是工程團隊在同一時期部署了代理工作流程。以今天的 API 定價來計算，讓一個持續運行的背景代理人監控企業軟體系統、彙整告警、起草事件工單，其 Token 成本約等同於讓一名全職初級分析師手動閱讀每一條告警。

這不是任何特定公司獨有的問題，而是代理轉型的結構性動態：更便宜的 Token 催生更有野心的應用，更有野心的應用消耗更多 Token，進而為 AI 供應商帶來更多收入——即使每 Token 收費持續下滑。

供應商的生存算術

定價戰引出了一個讓 AI 投資人不安的問題：有哪家供應商能在這樣的定價水準下真正獲利？

對 Google 和微軟而言，答案相對清楚。兩家公司都有雲端規模的基礎設施，以及數十年的硬體採購議價能力和定制晶片計畫。Google 的 Ironwood TPU 提供了結構性的成本優勢，優於任何使用商品 NVIDIA 硬體的供應商。微軟與 OpenAI 的 Azure 合作，使其在享受 Azure 基礎設施利潤的同時，也能取用 OpenAI 的模型。兩家公司的 AI API 業務都不是獨立利潤中心——它是雲端平台霸主地位的戰略投資，帳是這樣算的。

對 OpenAI 而言，算術更複雜。公司已揭露的年化收入接近 250 億美元，但運算成本仍是費用帳本上最大的一個項目。執行長山姆·奧特曼（Sam Altman）多次表示，推論成本的下降速度超出預期，這也是為什麼 GPT-5.5 的定價在結構上低於同等 GPT-4 水準，儘管它是規模更大的模型。OpenAI 的賭注是：以 Token 數、用戶數和企業合約衡量的量的增長，能夠在每 Token 收入下滑的同時推動利潤率改善。

對規模較小的推論供應商——Groq、Cerebras、Together AI 以及眾多轉售模型容量的雲端平台——而言，算術更為艱難。這些公司依賴基礎設施利潤在一個模型供應商自身也在激進降價的市場中求生。

底部在哪裡

分析師普遍同意當前的定價走勢有其底部，但對底部的位置看法分歧。

物理約束相對清晰：電力、冷卻和晶片並非免費，任何硬體組合的推論邊際成本都有非零的底限。以目前的硬體成本，大多數分析師認為前沿模型推論的物理成本底限，依模型大小、使用率和硬體世代，介於每百萬 Token 0.10 到 0.50 美元之間。

戰略底限則不同。只要超大規模業者將 AI API 視為雲端平台主導地位的引流工具——未來至少 24 個月內，這是合理的假設——某些模型層級的定價可能持續低於成本。Gemini Flash-Lite 每百萬 Token 0.25 美元，有可能已在或低於 Google 提供該服務的直接基礎設施成本；它存在的目的，是引導最終會使用 Gemini Ultra 並支付 Google Cloud 費用的開發者進入生態系。

高盛今年三月的分析顯示，最可能的近期均衡：旗艦模型在 2026 年底落在每百萬輸入 Token 1 至 3 美元；中等模型 0.15 至 0.50 美元；預算層級 0.05 至 0.15 美元。部署於消費者硬體的開源模型，將把真正的成本底線推向接近零——對願意自建基礎設施的開發者而言。

對構建者的意義

對開發者和產品團隊而言，定價崩跌已改變了值得構建什麼的設計空間。在每百萬 Token 30 美元時代，經濟上不合理的應用場景——即時文件分析、全天候客服代理、持續程式碼審查機器人——在 0.25 美元的今天已成為日常。設計問題已從「我們負擔得起嗎？」轉變為「我們想打造什麼樣的用戶體驗？」

這個轉變在產品格局中清晰可見。根據應用程式商店數據分析機構的數據，App Store 和 Google Play 在 2026 年第一季收到的 AI 原生應用程式提交數量，是 2025 年同期的兩倍以上。智慧的邊際成本正在接近儲存空間的邊際成本：仍不為零，但已低到不再決定什麼值得被開發。

更深遠的改變或許在於企業架構。當 Token 成本高昂時，工程團隊會積極優化——快取回應、將簡單查詢路由至較便宜的模型、盡量縮短上下文長度。隨著成本下降，這些優化在經濟上的必要性降低，代理工作流程在無人計量的情況下蔓延的誘惑也隨之而來。在 2026 至 2027 年的 AI 基礎設施環境中，表現最佳的企業，是那些建立了內部 Token 治理規範的企業——不是因為個別 Token 昂貴，而是因為代理工作流程累積 Token 消耗的速度，快過任何 IT 預算所能追蹤的速度。

AI 定價戰讓智慧變得便宜。讓便宜的智慧變得有生產力，仍是更難解的問題。

資料來源

AI 定價大型語言模型 OpenAI Google DeepSeek 推論 API