Google DeepMind 發布 Gemini Robotics-ER 1.6,讓 Boston Dynamics Spot 擁有真正的空間推理能力
Google DeepMind 於 4 月 15 日推出 Gemini Robotics-ER 1.6,這款以推理為核心的模型大幅提升機器人理解空間關係、讀取複雜儀表及自主偵測危險的能力。Boston Dynamics 已立即將其整合進 Spot 的工業巡檢平台,是迄今最具體的實體 AI 量產部署案例之一。
Google DeepMind 於 4 月 15 日推出 Gemini Robotics-ER 1.6,這款以推理為核心的模型大幅提升機器人理解空間關係、讀取複雜儀表及自主偵測危險的能力。Boston Dynamics 已立即將其整合進 Spot 的工業巡檢平台,是迄今最具體的實體 AI 量產部署案例之一。
OpenAI 代號「Spud」的下一代旗艦模型(外界預期命名為 GPT-6)已於 3 月 24 日在德州艾比林的 Stargate 資料中心完成預訓練,但 4 月 14 日的廣傳發布日期悄悄過去,毫無動靜。預測市場目前給出 78% 的機率認為將在 4 月底前發布,傳聞性能較 GPT-5.4 提升 40%,並搭載 200 萬 token 上下文視窗。
OpenAI 發布 GPT-5.4-Cyber,這是其旗艦模型的資安專用微調版本,具備「寬容網路」能力(包括二進位逆向工程),並透過擴大的「可信資安存取」計畫向數千名通過身份驗證的資安專業人員開放——此舉與 Anthropic 限制其強大的 Claude Mythos 模型形成鮮明對比。
OpenAI 於 4 月 14 日發布 GPT-5.4-Cyber,這是其旗艦 GPT-5.4 模型針對資安專業人員微調的特殊版本,採用分層授權的「可信存取」計畫管控使用。此次發布標誌著 AI 實驗室在數位防禦領域的軍備競賽進入新階段,並與 Anthropic 的 Claude Mythos 直接交鋒。
OpenAI 發布 GPT-5.4-Cyber,這是其旗艦模型的資安專用變體,僅開放給通過「可信存取計畫」審核的資安專業人員使用。此次發布恰好在 Anthropic 公布 Mythos 模型一週後,標誌著 AI 輔助資安防禦領域的新一輪競賽正式開打。
Anthropic 的 Claude Mythos Preview 自主識別出各大作業系統與瀏覽器中數千個此前未知的安全漏洞,其中一個潛伏長達 27 年。Anthropic 認定模型風險過高,決定不對外公開,轉而推出「玻璃翼計畫」,攜手 11 家科技巨頭投入 1 億美元,搶在攻擊者利用類似 AI 能力之前修補關鍵軟體弱點。
史丹佛 HAI 於 2026 年 4 月 13 日發布年度 AI 指數報告,揭示生成式 AI 在短短三年內全球採用率達 53%,超越個人電腦與網際網路的普及速度,美國消費者每年創造的價值高達 1,720 億美元。然而報告也點出前沿 AI 實驗室透明度急遽下降,以及全球 47 個國家 AI 法規嚴重碎片化的隱憂。
中國 AI 實驗室 Z.ai 發布 GLM-5.1,這款擁有 7,540 億參數的開源模型在 SWE-Bench Pro 上拿下 58.4% 的成績,超越 GPT-5.4 與 Claude Opus 4.6,成為首個在業界最嚴苛程式碼修復基準上擊敗所有閉源模型的開放權重系統。更引人注目的是,整個訓練流程完全在華為昇騰 910B 晶片上完成,未使用任何 Nvidia 硬體。
Meta 發布 Muse Spark,這是由 Alexandr Wang 領導的 Meta 超級智能實驗室打造的第一個模型,代表 Meta 從開源 Llama 策略的最大轉向——改走專有封閉路線。此舉清楚表明 Zuckerberg 在競爭敗退數月後,決心縮短與 OpenAI、Google 的差距。
Anthropic 發布迄今最強大的模型 Claude Mythos Preview,卻只開放給 12 個防禦性資安夥伴使用,原因是它能自主找出並利用各大作業系統與瀏覽器的零時差漏洞。這是近七年來,第一次有頂尖 AI 實驗室因安全疑慮公開決定不對外發佈模型。
OpenAI的下一代旗艦模型,內部代號「Spud」,已於3月24日完成預訓練。執行長Sam Altman形容這是「能真正加速經濟發展的強力模型」,總裁Greg Brockman則稱其代表「兩年研究成果」、帶來質的改變。預測市場目前給出78%的機率,認為公開版本將在4月底前上線——而最終商業名稱是GPT-5.5還是GPT-6,至今仍懸而未定。
2026年全國機器人週期間,NVIDIA發布Cosmos Reason 2——一個在物理世界推理排行榜上名列前茅的視覺語言模型——以及GR00T N1.6,一個用於仿人機器人全身控制的開源VLA模型。搭配Isaac Lab-Arena評估框架與OSMO算力架構,NVIDIA正積極打造下一代機器人領域的平台層,吸引從Franka到NEURA Robotics的全球合作夥伴紛紛加入。
OpenAI於3月5日發布的GPT-5.4,是首款在電腦使用基準測試中超越人類表現的通用AI模型,在OSWorld-Verified上達到75%成功率,超過人類基準的72.4%。搭配百萬token上下文視窗與原生滑鼠、鍵盤、截圖互動支援,GPT-5.4標誌著自主AI代理在企業與開發者工作流程中的歷史轉折點。
Google 發布 Gemini 3.1 Flash Live,一款支援低延遲音訊對話、螢幕分享互動與即時工具呼叫的語音與視覺模型,全程透過單一 API 完成。模型支援逾90種語言,在多步驟函式呼叫基準測試中拿下90.8%,現已透過 Google AI Studio 與 Vertex AI 的 Live API 向開發者開放。
Meta 旗下超智慧實驗室(Meta Superintelligence Labs)正式推出第一款自研 AI 模型 Muse Spark,由前 Scale AI 執行長 Alexandr Wang 主導開發。這款閉源模型代表 Meta 放棄延續多年的 Llama 開源策略,在醫療推理與視覺多模態任務上表現突出,直接挑戰 OpenAI 與 Google 的前沿模型地位。
Anthropic 啟動 Project Glasswing,將旗下前沿模型 Claude Mythos Preview 限制性開放給 40 多個頂尖組織存取。這款模型已在所有主流作業系統與瀏覽器中識別出數千個零時差漏洞,其中最古老的一個已潛伏 27 年。Anthropic 認為此模型威力過強,無法公開發布,本次做法在 AI 產業史上史無前例。
根據 Axios 報導,Meta 旗下 Alexandr Wang 正在籌備發布首批由他主導開發的 AI 模型,計劃採取混合策略:較小型版本開源,但最強的前沿模型將保持專有——這是與 Llama 系列全面開放路線的重大轉向。此舉反映 Meta 面臨的競爭壓力加劇,也意味著 Meta 正式踏入與 OpenAI 爭奪全球開發者生態的直接對決。
三大 AI 巨頭透過 Frontier Model Forum 共享機密威脅情報,共同防禦「對抗性蒸餾」攻擊——中國競爭對手透過數萬個假帳號,從美國頂尖 AI 模型中大規模擷取訓練資料。這場史無前例的競爭對手合作,標誌著美國 AI 產業在國家安全壓力下的重大轉折。
微軟發布三款完全自主研發的基礎 AI 模型——MAI-Transcribe-1、MAI-Voice-1 與 MAI-Image-2,是迄今為止微軟最明確的訊號,顯示其意圖直接與 OpenAI 競爭。這一舉措背後,是雙方重新談判的合作協議——微軟獲得自建前沿模型的自由,同時保留至 2032 年取用 OpenAI 成果的授權。
DeepSeek V4——一款專為全程運行於華為昇騰 950PR 晶片而設計的兆參數多模態模型——即將於本月公開發布,證明中國已在本土半導體硬體上實現前沿 AI 能力。以每百萬 token 0.5 美元的定價與估計僅 520 萬美元的訓練成本,它直接挑戰了「美國出口管制能約束中國 AI 發展」的基本前提。
Anthropic 的可解釋性研究團隊在 Claude Sonnet 4.5 中識別出 171 個功能性情緒表徵,並證實這些內部向量能因果性地影響模型輸出,包括任務偏好、奉承傾向與獎勵駭客等對齊失敗行為。這項研究是機械式可解釋性的重大突破,也為 AI 福利與對齊研究開啟了新的討論。
Anthropic 因內容管理系統設定錯誤,無意間公開了其迄今最強大模型「Claude Mythos」的存在。早期測試者描述它是超越 Opus 的全新等級,在推理與資安領域展現出史無前例的能力——同時也帶來令人憂慮的雙重用途風險。
xAI 傳聞中擁有 6 兆參數混合專家架構的 Grok 5 未能在 2026 年第一季如期發布,目標改為第二季。馬斯克確認,位於田納西州孟菲斯的 Colossus 2 超算正從 1 GW 擴充至 1.5 GW,為日後的模型微調與大規模推理提供算力支撐。
OpenAI 於 2026 年 4 月 3 日完成 GPT-4o 的全面退役,同步下架 GPT-4.1 和 o4-mini。退役時,每日僅有 0.1% 的用戶仍選擇 GPT-4o。GPT-5.4 提供 Standard、Thinking 和 Pro 三個版本,已成為平台新基準——但 Gemini 3.1 Pro 以約三分之一的 API 成本,在 16 項主要基準測試中的 13 項領先。
OpenAI 發布兩款開放權重模型 gpt-oss-20b 與 gpt-oss-120b,採用 Apache 2.0 授權,終結長達七年的開源缺席。這兩款模型針對 AI 代理工作流程最佳化,直接與 Meta Llama 系列在效能與授權彈性上一較高下。
Noah Labs 的 AI 語音監測工具 Vox 獲得 FDA 突破性器材認定,透過分析每日五秒語音錄音,在住院前偵測心衰竭惡化跡象。這項工具已與梅奧診所及加大舊金山分校合作驗證,FDA 的認定代表主管機關認可其背後存在真實臨床證據。
Google Research 發表 TurboQuant,無需重新訓練即可將 LLM 的 KV 快取從 16 位元壓縮至約 3 位元,宣稱 6 倍記憶體縮減與 8 倍注意力加速且零精度損失。該技術將於 ICLR 2026 接受同儕審查。
Google 推出 Gemma 4 系列模型,參數量從 20 億到 310 億,基於 Gemini 3 同等研究成果打造。這是 Gemma 系列首次採用 Apache 2.0 授權,一口氣消除了過去阻擋企業大規模部署的所有授權限制。憑藉歷代累計超過 4 億次下載,這次授權轉變是 Google 爭奪開放權重模型主導地位最清晰的宣示。
DeepSeek V4 據報數週內即將上線,模型已重寫以支援華為昇騰晶片而非 Nvidia 硬體。外洩的基準測試宣稱 SWE-bench Verified 達 80% 以上、訓練成本僅 520 萬美元——若屬實,將成為史上能力最強的開放權重模型,同時標誌著中國 AI 技術棧主動脫離美國管控硬體的里程碑。
Anthropic 因 CMS 設定錯誤,意外曝光代號「Mythos」的全新模型,定位在 Opus 之上的「Capybara」產品層級。公司目前正私下向美國官員簡報其前所未有的資安風險,同時進行有限度的早期存取測試。
AI 實驗室快用完高品質的人類生成訓練資料了。解方 — 用 AI 生成的資料來訓練 — 效果出奇地好,但產生了沒人完全理解的風險。
內部測試結果顯示 GPT-5 的進步幅度比預期窄很多。「加大就對了」的時代可能正式結束了,但這對整個產業來說其實是好消息。
開源模型追上閉源的速度比所有人預期的都快。但「開源」對 Meta、Mistral 和阿里巴巴來說意義完全不同。