200 萬 Token 的承諾：Gemini 3.5 Pro 遲遲未到，揭示 AI 前沿模型發布的困境

Google 在五月十九日的 I/O 大會上承諾 Gemini 3.5 Pro 將於六月底上線，主打 200 萬 token 超長上下文視窗與全新「Deep Think」延伸推理模式，但截至六月下旬仍僅開放給部分企業客戶試用。這場延遲揭示了 2026 年前沿 AI 模型開發的一個結構性困境：建造最強大的模型，與準時交付，在實務上幾乎難以兩全。

6 天前 1 分鐘閱讀

五月十九日的 Google I/O 大會上，桑達·皮查伊做出了一個讓在場開發者發出一聲嘆息的承諾：Gemini 3.5 Pro 及其 200 萬 token 超長上下文視窗與全新「Deep Think」延伸推理模式，將在下個月前上線。「給我們到下個月，」他說。

下個月就快結束了，Gemini 3.5 Pro 仍只開放給部分 Vertex AI 企業客戶試用。預測市場給出在六月三十日前正式上線的概率約為 50 至 55%——這個數字，揭示了 2026 年年中前沿模型開發的一個重要現實：打造最強大的 AI 系統，和按時交付它，在實務上幾乎是互斥的目標。

Gemini 3.5 Pro 究竟是什麼？

這款模型的核心賣點是其上下文視窗：200 萬 token，目前已知生產級前沿模型中最大的規格。具體而言，200 萬 token 大約等於 150 萬個英文字，相當於五到八本長篇小說的文字量。對開發者和企業而言，這意味著可以在單一工作階段中輸入整個大型程式碼庫、完整的年度郵件往來記錄，或龐大的法律文件集，而無需截斷或拆分。

已在五月十九日正式發布的 Gemini 3.5 Flash，在 Terminal-Bench 2.1 上取得 76.2%、在 MCP Atlas 上取得 83.6% 的成績，超越了上一代 Gemini Pro 系列。3.5 Pro 預計在 Flash 仍力有未逮的領域取得更大突破，尤其是高難度數學推理、多步驟科學問題求解，以及在超大文件集上的長程資訊提取。

Deep Think：Google 的延伸推理賭注

第二個核心功能 Deep Think，是 Google 對 OpenAI o 系列模型引入的延伸推理能力的正面回應。概念上並不複雜：模型不再只做一次前向傳播就輸出答案，而是被允許花費更多算力評估問題、檢查中間推理過程，並在生成最終答案前進行修正。

在延伸推理真正發揮作用的那類問題上，這種方法帶來的提升是顯著的——數學競賽題、多步邏輯謎題、複雜科學推導。Google 宣稱 Deep Think 將讓 Gemini 3.5 Pro 在 ARC-AGI-3 等高難度推理評測上達到前沿表現。

然而有一個重要限制：Deep Think 功能僅限月費 250 美元的 Ultra 訂閱方案使用。月費 20 美元的標準 Pro 訂閱用戶雖然能使用 200 萬 token 上下文視窗，但無法存取延伸推理模式。這種分層存取策略已引發開發者批評——許多人認為，延伸推理本質上是算力的多寡問題，而非功能的本質差異，人為設限顯得過於粗暴。

Google 正在應對的競爭壓力

Google 並不是在真空中發布 Gemini 3.5 Pro。自五月十九日以來，前沿模型市場的競爭節奏絲毫未放緩。

Anthropic 的 Claude Opus 4.8 在五月二十七日發布後，以 61.4 的評分奪下 Artificial Analysis Intelligence Index 榜首——首款突破 60 分的模型。OpenAI 的 GPT-5.5 Instant 於四月起成為 ChatGPT 的預設模型，持續定義著日常 AI 使用的實用基準。而即將上線的 GPT-5.6 據傳將把上下文視窗拓展至 150 萬 token，並強化長程程式設計能力——這直接與 Gemini 3.5 Pro 的核心賣點重疊。

如果 GPT-5.6 搶先 Gemini 3.5 Pro 公開上線，Google 可能面臨尷尬局面：自家旗艦模型的標誌性功能——200 萬 token 上下文視窗——到上線時，競爭標桿已再度移動。

定價與 Flash 的比較

Gemini 3.5 Flash 已在 API 中以每百萬輸入 token 1.5 美元、輸出 9 美元的定價上線，在所有中端模型中具備競爭力，且遠比 GPT-5.5 便宜。3.5 Pro 預計遵循歷史上約 10 倍 Flash 的定價比例，落在每百萬輸入 token 15 美元、輸出 60 美元附近，與 Claude Opus 4.8 和 GPT-5.5 定價相當。

企業買家面對的核心問題是：3.5 Pro 相對 Flash 的額外能力，對他們的具體工作負載而言是否值得溢價？多家企業評測方已表示，Gemini 3.5 Flash「在 10% 的成本下能處理 80% 的使用場景」。對特定企業任務——全面的程式碼審查、長文件綜合、合約分析——200 萬 token 上下文視窗的確具有決定性價值；但對主導實際部署的對話和任務執行工作負載而言，則幾乎無關緊要。

更廣泛的模式：前沿模型為什麼總是延期？

Gemini 3.5 Pro 的延遲並非孤例。OpenAI 的 GPT-5.6「六月會來」這個說法已流傳數週，但仍未有確定日期。Anthropic 則刻意選擇不提前公布發布時間，正是為了避免陷入這種被動。

這個模式反映了 2026 年前沿模型開發的結構性現實：安全性評估、紅隊測試和基礎設施強化等發布前審查流程，本質上難以精準預測。一個技術上已完成的模型，可能在發布前的內部審查中多花幾週。

對 Google 而言，這次延遲帶來的損失不只是競爭層面，更是聲譽層面的。Google 多年來一直試圖擺脫「AI 產品發布遲到、能力不符預告」的標籤。Gemini 1.0 在 2023 年十二月的問題重重上線、Gemini Ultra 在 2024 年初的延遲、以及現在的 3.5 Pro——這些點，外界觀察者正將它們連成一條線。

Google 的支持者則指出：Flash 在 I/O 的發布確實如期而至，能力也確實令人信服。3.5 架構本身的品質並無疑問。真正存疑的是：Google 是否已解決了讓能力提升能夠以可預期節奏傳遞給市場的組織問題——而在當前的競爭環境中，這個組織問題在戰略上與底層技術同等重要。

接下來的走向

未來十天存在三個情境。一：Gemini 3.5 Pro 在六月三十日前正式上線，200 萬 token 上下文、Ultra 方案的 Deep Think、API 定價均符合預期——Google I/O 的承諾兌現，在企業市場強勢應對 GPT-5.6。二：發布延至七月，附帶更新後的能力集——也許是更大的上下文視窗或新的多模態功能——以此為額外等待的時間提供正當理由。三：GPT-5.6 搶先上線，Google 的發布淪為追趕，而非引領。

對在前沿模型堆疊上建構應用的開發者，三種情境下的實務建議是一樣的：先用 Flash 評估當前工作負載，並建立好模型抽象層，讓你能在不大改程式碼的情況下切換底層模型。今天看起來最強的模型，九十天後通常早已不是。

Gemini 3.5 Pro 終將帶來的東西——在前沿表現水準下的 200 萬 token 上下文視窗——是一個真正有意義的能力提升。唯一的問題，是它究竟能否及時到場，定義市場時刻；還是在整個市場已再度向前移動後，才悄悄地上線。

資料來源

google gemini gemini-3-5-pro AI模型上下文視窗 deep-think 前沿模型大型語言模型