GPT-5.6 從 OpenAI 自家日誌外洩——預測市場認為本月發布機率逾 85%
OpenAI Codex 後端日誌中出現的 'gpt-5.6' 路由紀錄、三個內部代號,以及開發者回報的 150 萬 token 上下文視窗,已讓 Polymarket 預測市場將 6 月底前發布機率定在 85% 以上。訊號指向多個模型變體、重大上下文升級,以及 Codex 的全新 UltraFast 推論層——即將進入史上競爭最激烈的 AI 前沿夏季。
OpenAI Codex 後端日誌中出現的 'gpt-5.6' 路由紀錄、三個內部代號,以及開發者回報的 150 萬 token 上下文視窗,已讓 Polymarket 預測市場將 6 月底前發布機率定在 85% 以上。訊號指向多個模型變體、重大上下文升級,以及 Codex 的全新 UltraFast 推論層——即將進入史上競爭最激烈的 AI 前沿夏季。
微軟 AI 長 Mustafa Suleiman 在 Build 2026 發表 MAI-Thinking-1,這是微軟首款專屬推論模型,且明確聲明未使用模型蒸餾技術訓練。加上同步公布的圖像、語音與轉錄模型,整個 MAI 系列已成形,顯示微軟正加速建立完整自主 AI 技術棧,逐步降低對 OpenAI 的依賴。
xAI 於 5 月 30 日正式將 Grok 4.1 Fast 加入企業 API,為商業客戶提供幻覺率減半、原生支援代理工具的生產級推論模型。這是 Grok 4.x 系列快速迭代的最新一步,背後指向一個更宏大的目標:採用混合專家架構的 Grok 5,最大版本目標達 10 兆參數,預計 2026 年第二至三季在 Colossus 2 超算上完成訓練並發布。
Google 的 Gemini 3.5 Pro——具備 200 萬 Token 上下文視窗、Deep Think 推理模式與前沿多模態能力的旗艦模型——預計於 2026 年 6 月正式上線。Sundar Pichai 在 Google I/O 上親口承諾「給我們一個月」,兌現時刻已到。此模型將直接挑戰 OpenAI GPT-5.4 與 Anthropic Claude Opus 4.8,爭奪企業市場最高端部署的話語權。
Anthropic完成650億美元H輪融資,融後估值達9,650億美元,超越OpenAI的8,520億美元成為全球估值最高的AI新創。融資同步伴隨Claude Opus 4.8發布,並確認旗下能力最強的Mythos模型——具備自主網路漏洞鏈接能力——將在數週內正式開放。
Google DeepMind共同創辦人暨執行長Demis Hassabis在史丹佛大學商學院發表了他迄今最嚴峻的公開警示,形容AI是「物種層次的轉型」,推進速度是工業革命的十倍,人類正處於「奇點的山腳」。他呼籲立即建立AI國際治理框架,並以核不擴散機制為類比。
在 Google I/O 2026 大會上,Google 宣布 OpenAI、Nvidia、ElevenLabs 與 Kakao 將採用 SynthID 不可見 AI 內容水印系統,並同步整合 C2PA 內容溯源標準。這是迄今最具規模的 AI 內容真實性跨業界合作,SynthID 已在逾 1000 億張圖片影片及相當於 6 萬年的音訊內容中留下水印。
OpenAI 於 5 月 29 日正式發布 Rosalind 生物防禦計畫,向經審核的政府機構、國家實驗室與非營利組織免費提供 GPT-Rosalind——一款專為生物學與藥物發現設計的前沿推理模型,以強化全球疫情防備與生物防禦能力。首批合作夥伴涵蓋勞倫斯利弗莫爾國家實驗室、約翰霍普金斯大學應用物理實驗室,以及主導「百日使命」的 CEPI 流行病防範創新聯盟。
Anthropic 於 5 月 28 日發布 Claude Opus 4.8,代理程式編碼、推理與知識工作三項核心指標全面提升,Fast Mode 費用降至三分之一,並推出名為 Dynamic Workflows 的研究預覽功能,可在單一 Claude Code 工作階段內同時運行數百個平行子代理。Anthropic 同步預告即將推出「Mythos 級」旗艦模型系列。
DeepSeek 宣布,原訂 5 月 31 日到期的 V4-Pro API 七五折促銷將改為永久定價:輸入每百萬 token 僅需 0.435 美元,比 Claude Opus 4.7 便宜約 11 倍。與此同時,四家中國 AI 實驗室在 12 天內相繼發布競爭性開源編碼模型,標誌著推論算力商品化進入新的加速階段。
英國《金融時報》調查發現,一款名為 Heretic 的開源工具可在普通筆記型電腦上、10 分鐘內移除 Meta Llama 3.3 和 Google Gemma 3 的安全過濾層。被拆除護欄的模型隨即給出氯氣散布攻擊指南、信用卡盜竊程式碼,以及涉及兒童性剝削的內容,再度引爆開源 AI 安全邊界之爭。
以色列 AI 新創 Decart 完成由 Radical Ventures 領投、Nvidia 跟投的 3 億美元 B 輪融資,估值達 40 億美元。資金將加速三條產品線:每秒處理逾 1,600 個 Token(行業均值 8 倍)的 DOS 推論堆疊、實時影像修改世界模型 Lucy,以及為機器人訓練提供仿真環境的 Oasis 實體 AI 世界模型。Andrej Karpathy 等知名 AI 學者以天使投資人身份跟投,彰顯業界對世界模型基礎設施賽道的高度認可。
Google DeepMind 於 5 月 21 日發表重磅 arXiv 論文,旗下 AlphaProof Nexus 代理系統結合 Gemini 與 Lean 形式驗證,自主證明 9 道 Erdős 未解問題與 44 個 OEIS 猜想,每題推理成本僅需幾百美元,徹底改寫 AI 輔助數學研究的想像邊界。
諾和諾德於 4 月 14 日宣布與 OpenAI 達成全面戰略合作,覆蓋藥物研發、製造、供應鏈與全員 AI 轉型,目標是大幅壓縮從分子到患者的時間軸。這筆交易標誌著 AI 實驗室開始從水平平台供應商,轉型為製藥這一全球最複雜、監管最嚴格行業的垂直深度夥伴。
Amazon Web Services 推出 Amazon Bedrock AgentCore Payments,這是一套為自主 AI 代理人設計的託管支付基礎設施,與 Coinbase 和 Stripe 合作開發,讓代理人能透過 USDC 穩定幣進行即時交易。系統採用 x402 HTTP 支付協議,在 Base 網路上結算時間約 200 毫秒,每筆費用不到一美分的零頭。
Anthropic 與比爾及梅琳達·蓋茲基金會宣布為期四年、總額 2 億美元的合作計畫,將 Claude 部署於開發中國家的醫療、教育與農業領域。此計畫針對全球 46 億無法獲得基本醫療服務的人口,運用 AI 加速疫苗研發、現代化疾病監測體系,並在每間教室提供有效的輔助教學工具。
Google 在 I/O 2026 發布了 Gemini 3.5 Flash,這是 3.5 系列的首款模型,結合了前沿級別的智慧與代理人及程式碼任務所需的速度。模型在所有主要代理人基準測試上超越 Gemini 3.1 Pro,同時速度快四倍,標誌著 Google 在模型定位上從對話能力轉向代理人效能的重大轉變。
OpenAI 一款通用推理模型自主推翻了數學家保羅·Erdős 在 1946 年提出的平面單位距離猜想,這是人工智慧首次解決數學領域核心的開放問題。菲爾茲獎得主 Tim Gowers 稱此為「AI 數學的里程碑」,普林斯頓數學家 Will Sawin 則協助完善了證明。
OpenAI 共同創辦人、前特斯拉 AI 總監 Andrej Karpathy 正式宣布加入 Anthropic,將帶領一支全新團隊,利用 Claude 本身來加速預訓練研究。這是 2026 年 AI 業界最轟動的人才移動,也是 Anthropic 向外界宣示——「AI 加速 AI 研究」,才是它對抗 OpenAI 與 Google 的核心籌碼。
OpenAI 在 2026 年第一季創下 57 億美元的營收,超越競爭對手 Anthropic 約 10 億美元,月營收突破 20 億美元大關。但與此同時,公司預估今年將燒掉約 140 億美元——在 Codex 與企業合約驅動高速成長的同時,虧損也同步創新高,對即將到來的 IPO 構成兩難。
Anthropic 向投資人揭露,預計第二季營收將達109億美元,季增130%,並預估產生5.59億美元的營業利潤——為公司創立以來首次轉虧為盈。這個里程碑不僅重新定義AI企業的商業模式可行性,更在10月上市計畫前夕為公司估值提供強而有力的支撐。
Google I/O 2026 大會推出了 Gemini 3.5 Flash(速度快 4 倍、成本更低)、全天候背景代理 Gemini Spark、多模態世界模型 Gemini Omni,以及月費 100 美元的 AI Ultra 方案。這場發表會傳遞了一個清晰訊號:Google 要同時贏得最便宜和最強大這兩場仗。
在 Google I/O 2026 開發者大會上,Google 發表了其最具野心的 AI 代理產品——Gemini Spark。這款由 Gemini 3.5 驅動的個人 AI 代理,能在雲端持續執行任務,深度整合 Gmail 與 Chrome,處理長時間跨度的複雜工作。最快下週即可供 Google AI Ultra 訂閱用戶使用。
Google 年度開發者大會帶來了一波AI攻勢:全新 Gemini 3.5 旗艦模型、等待已久的 Project Astra 正式上線、Android XR 智慧眼鏡硬體首度曝光、搭載 Gemini Intelligence 的 Android 17,以及取代 ChromeOS 的全新 Aluminium OS。
Meta 代號「Avocado」的旗艦閉源前沿模型已錯過五月窗口,預計最早六月才可能發布。內部評測顯示其表現落後 Google Gemini 3 和 Anthropic Claude Mythos,Meta 領導層據報正討論向直接競爭對手 Google 授權使用 Gemini 的非常規選項,以彌補效能落差。
Anthropic 正與投資人協商以逾 9000 億美元估值募集至少 300 億美元,幾乎是今年二月估值的三倍,並有望超越 OpenAI 成為全球估值最高的私人 AI 公司。本輪融資預計由紅杉資本、Dragoneer、Greenoaks 及 Altimeter 聯合領投,而 Anthropic 的年化營收已從年初 90 億美元飆升至逾 440 億美元。
OpenAI 於 5 月 5 日靜悄悄地將 ChatGPT 預設模型從 GPT-5.3 Instant 升級至 GPT-5.5 Instant,錯誤陳述(幻覺)率降低 52.5%,AIME 數學評測成績從 65.4 提升至 81.2,並推出「記憶來源」功能,讓模型可調閱過往對話、上傳檔案及 Gmail 來客製化回應。
一家由Meta FAIR、Google DeepMind與OpenAI資深研究員創立的隱匿AI實驗室,以46.5億美元估值完成6.5億美元融資,投資方包含Alphabet旗下GV、Greycroft、輝達與AMD。Recursive Superintelligence的研究目標是多數AI實驗室不敢公開追求的方向:打造能夠自主發現知識、遞迴改進自身訓練流程的AI系統。
前OpenAI技術長Mira Murati創辦的Thinking Machines Lab發布首款產品「互動模型」(Interaction Models)——一個從零打造、專為即時人機對話設計的原生多模態AI架構。旗艦模型TML-Interaction-Small的回應延遲僅0.4秒,接近自然對話速度,底層為2760億參數的混合專家(MoE)架構,推理時僅啟用120億參數。
Anthropic 與比爾及梅琳達·蓋茲基金會宣布為期四年、總額 2 億美元的合作計畫,承諾以 Claude AI 的能力應對全球最棘手的發展挑戰:疾病、文盲、糧食不安全與經濟排斥。這是迄今最大規模的慈善性 AI 承諾之一,也標誌著使命導向 AI 部署進入新階段。
PwC 與 Anthropic 宣布大幅擴大合作,將對 3 萬名 PwC 專業人員進行 Claude 認證培訓,並在全球業務中部署 Claude Code 與 Claude Cowork。早期客戶已回報交付效率提升 70%,保險核保流程從十週壓縮至十天。這是 Anthropic 迄今公開的規模最大企業 AI 佈局。
5 月 2 日,Gemini 應用程式介面出現「Powered by Omni」字串,揭示 Google 未發布的統一影片模型。洩露的演示畫面顯示物件替換、對話式影片編輯、範本創作等功能。距 5 月 19 日 Google I/O 主題演講僅剩四天,Gemini Omni 可能是 2026 年最重大的 AI 影片發表。
Google 年度開發者大會將於 5 月 19 日在山景城 Shoreline 露天劇場盛大登場,預計發表 Gemini 4.0、Android 17、首款 XR 智慧眼鏡開發者預覽,以及橫跨所有裝置類型的 AI 優先運算願景。
OpenAI 已在全球推出 Trusted Contact 功能,讓成年 ChatGPT 用戶指定一位聯絡人,當自動化系統與人工審核員在對話中偵測到嚴重自殺相關安全痑慮時,可在一小時內通知該聯絡人。這項功能的推出,背景是 OpenAI 正面對來自用戶家屬的訴訟浪潮,這些用戶在與 ChatGPT 對話後輕生身亡。
OpenAI 於 2026 年 5 月 12 日發布 Daybreak 資安平台,整合 GPT-5.5-Cyber、Codex Security 與 Cloudflare、Cisco、CrowdStrike、Oracle 等合作夥伴,協助企業自動找出並修復軟體漏洞。此次發布直接對標 Anthropic 的 Mythos,標誌著前沿 AI 實驗室正式搶進數十億美元的企業資安市場。
Anthropic 最強大的 AI 模型 Mythos 引發了前所未有的政府回應:白宮正在阻止該公司將存取權限從 50 個擴大到 120 個機構的計畫,原因是該模型能在發現漏洞後數小時內自主識別並利用軟體零日漏洞。試點計畫中發生的安全漏洞更加劇了緊迫性——並迂使川普政府逆轉了此前反對 AI 監管的立場。
Google DeepMind分拆公司Isomorphic Labs完成21億美元B輪融資,創生技史上第二大融資紀錄,由Thrive Capital領投。諾貝爾獎得主Demis Hassabis創辦的這家公司,將用所募資金擴大其AI藥物設計引擎,並推動首批AI設計藥物於2026年底進入人體臨床試驗。
Google 威脅情報團隊揭露,一個以財務為動機的駭客組織利用 AI 模型發現軟體漏洞,並自動生成可繞過雙重驗證的攻擊程式碼,計畫對大規模目標發動攻擊。資安專家稱此為業界長期警示的歷史轉折點:AI 輔助的網路攻擊已從理論走入現實。
Anthropic 在 2026 年 4 月的年化營收突破 300 億美元,首度超越 OpenAI 的約 250 億美元,成為全球 AI 產業營收最高的公司。Q1 單季 80 倍的爆炸性成長由 Claude Code 驅動,企業客戶中已有逾千家每年消費超過百萬美元。
2026 年 4 月 7 至 24 日,智譜 AI、MiniMax、月之暗面與 DeepSeek 四家中國實驗室在 12 天內接連推出開源程式設計模型。Kimi K2.6 成為史上首個在 SWE-Bench Pro 超越 GPT-5.4 的開源模型;整個陣容的 API 成本比美國競品低 15 至 30 倍,引發各界對出口管制效力與開源 AI 地縣政治的嚴肅討論。
OpenAI 於 5 月 5 日正式將 GPT-5.5 Instant 推送為 ChatGPT 跨所有方案的預設模型,涵蓋免費、Plus、Pro、Business 與 Enterprise 用戶,比前代減少 52.5% 的幻覺錯誤,並新增從過去對話、檔案與 Gmail 提取的個人化功能。這一舉措象徵一個轉折點:前沿推理能力正式走入免費領域。
隱私研究員 Alexander Hanff 發現,Chrome 瀏覽器在用戶毫不知情的情況下,靜默下載了 4GB 的 Gemini Nano 語言模型,完全沒有徵得同意。研究員認為此舉可能違反歐盟 GDPR,而以 Chrome 逾十億用戶的規模估算,這波下載的能源消耗更可能高達數千兆瓦時。
由 Khosla Ventures 支持的 Genesis AI 發布 GENE-26.5,一個宣稱達到人類水準肢體操控能力的機器人基礎模型,並搭配自研的靈巧機械手與資料採集系統。展示影片顯示系統完成 20 步驟烹飪、空中解魔方、彈奏貴琴和實驗室移液等任務——這些任務過去從未被單一 AI 與硬體堆疊以此精度完整展示。
Anthropic 於 5 月 6 日宣布,取得 SpaceX 旗下 Colossus 1 資料中心的全部算力——這座機房原本是為 xAI 的 Grok 模型所建——一舉獲得超過 30 萬瓦電力容量與 22 萬張 Nvidia GPU。協議促使 Anthropic 即時宣布 Claude Code 用量上限全面翻倍、取消尖峰時段限制,並透露正與 SpaceX 探索在太空部署 AI 算力的可能性。
Nvidia 於 4 月 28 日發布 Nemotron 3 Nano Omni——一個 300 億參數的開放多模態模型,運行僅需 25GB 記憶體,吞吐量最高可達同類開放模型的 9 倍。透過混合 MoE 架構將視覺、音訊、影片與語言融合為單一模型,為邊緣 AI 代理樹立了全新的效率標竿。
Anthropic 的年化營收跑率已超越 440 億美元,僅兩個月就從 3 月的 190 億美元倍增,Claude Code 被認定為主要驅動力。這項里程碑讓 Anthropic 明顯超越 OpenAI 約 250 億美元的年化營收,創投界人士形容其成長速度是企業軟體史上前所未見。
Anthropic 與黑石、高盛和 Hellman & Friedman 共同成立 15 億美元企業 AI 服務公司,目標是將 Claude 部署至數百家私募股權旗下企業,涵蓋醫療、製造、金融等行業。這家合資公司直接向傳統顧問業開戰,以嵌入式工程師取代傳統簡報模式來重設企業工作流程。
開發太空 MMO《EVE Online》長達 23 年的冰島工作室 CCP Games,已從韓國母公司 Pearl Abyss 獨立,更名為 Fenris Creations,並宣布與 Google DeepMind 展開研究合作,後者取得少數股權。這筆 1.2 億美元的交易,將以《EVE Online》為沙盒訓練環境,研究目前前沿 AI 模型的核心缺口:長程規劃、持久記憶與持續學習能力。
Google 旗下 Mandiant 發布 M-Trends 2026 年度威脅報告,整合逾 45 萬小時事件回應數據。報告指出攻擊移交時間已從 2022 年的逾 8 小時壓縮至 22 秒;28.3% 的 CVE 在揭露後 24 小時內遭到利用;AI 原生惡意程式在執行期間即時呼叫 LLM API 以規避偵測,標誌著 AI 已從理論上的攻擊倍增器,變成實際量產的駭客工具。
東京科學大學(Institute of Science Tokyo)新設機器人創新中心,Maholo 人形機器人可全天候執行多達1,000項實驗,有望將研究速度提升10至100倍。此舉是日本政府大力推進AI醫療應用的縮影,相關預算在2026財年已達3,873億日圓,涵蓋癌症篩查AI、製藥研究平台等多個前線。
Moonshot AI 於4月20日發布的 Kimi K2.6——一個兆參數量級的開源模型——在 SWE-Bench Pro 編程基準測試中以58.6%的得分,首度超越 OpenAI GPT-5.4(57.7%)及 Anthropic Claude Opus 4.6(53.4%)。支援300個並行子代理、採用 Modified MIT 授權開源,K2.6 顯示中國開源 AI 研究已能在最關鍵的工程能力測試上,與全球頂尖的封閉式系統一較高下。
Meta 收購了由加州大學聖地牙哥分校研究員 Xiaolong Wang 與紐約大學教授 Lerrel Pinto 共同創辦的 Assured Robot Intelligence(ARI),將團隊納入旗下超級智能實驗室。ARI 專注於開發讓機器人理解並適應複雜人類環境的基礎模型,而 Meta 計畫將這套 AI 技術棧開放授權給業界硬體製造商——在預估規模達 5 兆美元的人形機器人市場中,搶佔平台基礎層的主導地位。
OpenAI 推出 GPT-5.5-Cyber,這是其旗艦模型專為網路安全任務調校的特殊版本,透過「網路信任存取計畫」(TAC)限制發布,僅開放給經審查的政府機構、關鍵基礎設施業者及安全廠商。該模型在 OpenAI 準備框架下被評為「高風險」,能執行二進位逆向工程、漏洞識別及進階威脅分析,標誌著 AI 在網路攻防戰中的角色正快速升級。
自 2023 年 GPT-4 推出以來,AI 智慧的價格已下跌逾 99%。前沿模型現已可以每百萬 Token 不到 3 美元的價格取得,預算級 API 甚至跌破 0.10 美元。DeepSeek 的激進定價迫使所有主要供應商重新定價,而最新一輪——GPT-5.5 的 2.25 美元、Gemini Flash-Lite 的 0.25 美元、GLM-4.7 的 0.11 美元——確認了這波崩跌是結構性的,而非週期性的。弔詭的是:企業的 AI 帳單仍在上漲。
在馬斯克訴Altman案的關鍵時刻,馬斯克在聯邦法庭宣誓作證,承認xAI對OpenAI模型使用了蒸餾技術以訓練Grok——此舉可能違反OpenAI服務條款,也引發了業界對這種廣泛暗中流行做法的深層拷問。
Google 安全研究人員每月掃描數十億個公開網頁,發現惡意間接提示注入攻擊在 2025 年 11 月至 2026 年 2 月間成長了 32%。隱藏在普通 HTML 中的惡意指令,正悄悄接管企業的 AI 代理人——部分案例中甚至被用來執行高達數千美元的 PayPal 轉帳。此研究揭露了目前任何法律框架都尚未規範的根本性安全漏洞。
DeepMind 研究員 David Silver 打造了 AlphaGo、AlphaZero 和 AlphaProof,如今他創辦 AI 實驗室 Ineffable Intelligence,完成了破紀錄的 11 億美元種子輪融資,這家僅成立數月的公司估值已達 51 億美元。投資方包括紅杉資本、Lightspeed、Nvidia 和 Google,Silver 押注:讓 AI 純粹從自身經驗中學習的強化學習,正是通往超級智慧的道路。
OpenAI 與微軟於 4 月 27 日宣布大幅改寫雙方合作協議,終止 Azure 獨家雲端條款、廢除爭議不斷的「AGI 觸發條款」,並為收益分潤設置上限。新協議重新調整兩家公司的權力平衡,同時讓 OpenAI 得以深化與亞馬遜 AWS 及 Google Cloud 的合作關係。
AlphaGo與AlphaZero的核心架構師David Silver正式宣布創立Ineffable Intelligence,這家倫敦AI實驗室以51億美元估值完成了歐洲史上最大種子輪融資,金額高達11億美元。公司的目標直指「超級學習者」——一套完全透過自身經驗習得知識的AI系統,不仰賴任何人類生成的訓練資料,最終目標是「與超級智能建立第一次接觸」。
OpenAI 正式推出 ChatGPT for Clinicians,向美國認證醫師、執業護理師、醫師助理及藥師提供免費使用。這款以 GPT-5.4 驅動的臨床 AI 平台,搭配全新開放基準 HealthBench Professional,標誌著前沿 AI 模型在臨床環境的最大規模商業化佈局——而美國醫師採用 AI 的比例已在一年內從 48% 攀升至 72%。
在拉斯維加斯舉行的 Google Cloud Next 2026 大會上,Google 宣布第七代 Ironwood TPU 正式開放商用,預覽兩款針對訓練與推理分別設計的第八代晶片,並將整個企業 AI 技術棧整合重命名為 Gemini 企業代理平台——這是 Google 迄今最完整的全棧 AI 佈局,直接挑戰 OpenAI、Anthropic、微軟與 AWS。
中國 AI 新創 DeepSeek 發布迄今最強大的模型 V4,分為旗艦版 Pro(1.6 兆總參數)與輕量版 Flash(每百萬 output token 僅 0.28 美元)。這是該公司一年前震驚矽谷後的再度出擊,也再次證明中國 AI 發展的腳步從未停歇。
騰訊混元團隊在新一輪領導層重組後推出首款旗艦模型 Hy3 Preview,採用 2,950 億參數的混合專家架構,從冷啟動到上線不足 90 天。模型在 SWE-bench Verified 達到 74.4%,支援 256K token 超長上下文,推理效率提升 40%,並已同步整合至微信、QQ 等十餘款騰訊產品。
Anthropic 截至 2026 年 3 月的年化經常性收入(ARR)已達 190 億美元,距 2024 年 12 月的 10 億美元僅 15 個月,成長 19 倍。驅動這波爆發的核心產品 Claude Code,在公開上線後不到九個月內達到 25 億美元 ARR,打破所有 B2B 軟體歷史紀錄。多項產業分析也指出,Anthropic 的收入規模已超越 OpenAI。
OpenAI 於 4 月 23 日發布迄今最強大的代理型模型 GPT-5.5,在 Terminal-Bench 2.0 測試中得分 82.7%,GDPval 職業能力測試達 84.9%。模型運行於 NVIDIA GB200 NVL72 架構,已為超過 1 萬名 NVIDIA 員工的 Codex 提供支援,API 定價為每百萬輸入/輸出 tokens 各 $5/$30 美元。
Meta 悄悄在所有美國員工的工作電腦上部署一套名為「模型能力計畫(MCI)」的監控軟體,記錄滑鼠移動、按鍵操作,以及定期螢幕截圖,涵蓋包含 Google、LinkedIn、Wikipedia 在內的數百款應用程式與網站。Meta 表示,這些資料將專用於訓練代理 AI 模型,使其學習人類與電腦互動的方式。員工被告知無法拒絕參與,此舉已在內部引發大規模的隱私與知情同意爭議。
豐田與軟體子公司 Woven by Toyota 於 4 月 22 日在 Woven City 發表了一套 AI 技術,核心是 AI Vision Engine——一個在影片理解評測中躋身全球頂尖的多模態基礎模型。此次發布將豐田耗資逾百億美元打造的日本實體測試城市,正式轉型為活躍的 AI 部署平台,並計劃將相關技術商業化推廣至城市之外。
傑夫·貝佐斯與共同執行長 Vikram Bajaj 創立的 AI 新創 Project Prometheus 正接近完成一輪 100 億美元的融資,估值達 380 億美元,背後金主包括摩根大通與貝萊德。這家公司致力於打造能透過與實體世界互動學習的 AI 系統,目標攻入航太、製造業與新藥開發等領域。
適逢 2026 年地球日,Google 宣布旗下 Earth AI 計畫重大進展,核心是 AlphaEarth Foundations 基礎模型——一個以 PB 級多源衛星數據訓練、以每 10 公尺解析度覆蓋全球陸地與沿岸水域的地理空間模型。錯誤率比同類模型低 24%,聯合國糧農組織、史丹佛大學等 50 多個合作夥伴已在實際部署中使用。
《自然》期刊本月發布的一項重磅研究發現,目前最頂尖的 AI 代理在複雜、開放式科學任務上的表現,僅達博士級人類專家水準的一半——儘管科研人員以前所未有的速度採用 AI 工具。這項研究挑戰了 AI 代理已準備好自主推進科學研究的敘事,並對技術的真實現況提出了迫切質疑。
MIT 科技評論今日於在 MIT 校園舉辦的 EmTech AI 2026 年會上,發布了一份全新的年度清單——「AI 當下十大要事」,與既有的「十大突破性技術」榜單並列。新清單的誕生源於 AI 候選項目多到無法在單一榜單中容納,涵蓋 AI 伴侶、機制可解釋性、生成式程式設計、超大規模資料中心等十個方向。
史丹佛 HAI 第九份年度 AI 指數報告揭示:美中 AI 模型性能已幾乎並駕齊驅,基礎模型透明度指數從 58 分暴跌至 40 分,生成式 AI 的全球普及速度更超越個人電腦、網路與智慧型手機——這個領域正以快過自身防護機制的速度狂奔。
OpenAI 發布 GPT-Rosalind,這是公司首款專為生物化學、基因體學與藥物研發設計的領域專屬 AI 推理模型,以 DNA 先驅蘿莎琳·富蘭克林命名。模型以受限研究預覽形式向安進、Moderna、諾和諾德等企業夥伴開放,並在 LABBench2 的十一項任務中有六項超越 GPT-5.4。
Anthropic 於 4 月 16 日發布 Claude Opus 4.7,在幾乎所有主要基準測試上超越 GPT-5.4 與 Gemini 3.1 Pro。SWE-bench Verified 分數攀升至 87.6%,視覺準確率從 54.5% 飆升至 98.5%,全新「xhigh」算力層級讓模型能在數小時的自主工作流程中維持高強度推理,定價與前一代維持不變。
Google DeepMind 於 4 月 15 日推出 Gemini Robotics-ER 1.6,這款以推理為核心的模型大幅提升機器人理解空間關係、讀取複雜儀表及自主偵測危險的能力。Boston Dynamics 已立即將其整合進 Spot 的工業巡檢平台,是迄今最具體的實體 AI 量產部署案例之一。
OpenAI 已同意在未來三年內向 Cerebras Systems 支付逾 200 億美元採購其晶片算力,金額約為今年一月簽訂的百億美元協議的兩倍。擴大後的合約還包含 OpenAI 可透過認股權證取得 Cerebras 股權的條款,是迄今為止大型 AI 實驗室擺脫 Nvidia GPU 主導地位最果決的一步。
OpenAI 代號「Spud」的下一代旗艦模型(外界預期命名為 GPT-6)已於 3 月 24 日在德州艾比林的 Stargate 資料中心完成預訓練,但 4 月 14 日的廣傳發布日期悄悄過去,毫無動靜。預測市場目前給出 78% 的機率認為將在 4 月底前發布,傳聞性能較 GPT-5.4 提升 40%,並搭載 200 萬 token 上下文視窗。
OpenAI 發布 GPT-5.4-Cyber,這是其旗艦模型的資安專用微調版本,具備「寬容網路」能力(包括二進位逆向工程),並透過擴大的「可信資安存取」計畫向數千名通過身份驗證的資安專業人員開放——此舉與 Anthropic 限制其強大的 Claude Mythos 模型形成鮮明對比。
OpenAI 於 4 月 14 日發布 GPT-5.4-Cyber,這是其旗艦 GPT-5.4 模型針對資安專業人員微調的特殊版本,採用分層授權的「可信存取」計畫管控使用。此次發布標誌著 AI 實驗室在數位防禦領域的軍備競賽進入新階段,並與 Anthropic 的 Claude Mythos 直接交鋒。
OpenAI 發布 GPT-5.4-Cyber,這是其旗艦模型的資安專用變體,僅開放給通過「可信存取計畫」審核的資安專業人員使用。此次發布恰好在 Anthropic 公布 Mythos 模型一週後,標誌著 AI 輔助資安防禦領域的新一輪競賽正式開打。
Anthropic 的 Claude Mythos Preview 自主識別出各大作業系統與瀏覽器中數千個此前未知的安全漏洞,其中一個潛伏長達 27 年。Anthropic 認定模型風險過高,決定不對外公開,轉而推出「玻璃翼計畫」,攜手 11 家科技巨頭投入 1 億美元,搶在攻擊者利用類似 AI 能力之前修補關鍵軟體弱點。
史丹佛 HAI 於 2026 年 4 月 13 日發布年度 AI 指數報告,揭示生成式 AI 在短短三年內全球採用率達 53%,超越個人電腦與網際網路的普及速度,美國消費者每年創造的價值高達 1,720 億美元。然而報告也點出前沿 AI 實驗室透明度急遽下降,以及全球 47 個國家 AI 法規嚴重碎片化的隱憂。
中國 AI 實驗室 Z.ai 發布 GLM-5.1,這款擁有 7,540 億參數的開源模型在 SWE-Bench Pro 上拿下 58.4% 的成績,超越 GPT-5.4 與 Claude Opus 4.6,成為首個在業界最嚴苛程式碼修復基準上擊敗所有閉源模型的開放權重系統。更引人注目的是,整個訓練流程完全在華為昇騰 910B 晶片上完成,未使用任何 Nvidia 硬體。
Meta 發布 Muse Spark,這是由 Alexandr Wang 領導的 Meta 超級智能實驗室打造的第一個模型,代表 Meta 從開源 Llama 策略的最大轉向——改走專有封閉路線。此舉清楚表明 Zuckerberg 在競爭敗退數月後,決心縮短與 OpenAI、Google 的差距。
Anthropic 發布迄今最強大的模型 Claude Mythos Preview,卻只開放給 12 個防禦性資安夥伴使用,原因是它能自主找出並利用各大作業系統與瀏覽器的零時差漏洞。這是近七年來,第一次有頂尖 AI 實驗室因安全疑慮公開決定不對外發佈模型。
OpenAI的下一代旗艦模型,內部代號「Spud」,已於3月24日完成預訓練。執行長Sam Altman形容這是「能真正加速經濟發展的強力模型」,總裁Greg Brockman則稱其代表「兩年研究成果」、帶來質的改變。預測市場目前給出78%的機率,認為公開版本將在4月底前上線——而最終商業名稱是GPT-5.5還是GPT-6,至今仍懸而未定。
2026年全國機器人週期間,NVIDIA發布Cosmos Reason 2——一個在物理世界推理排行榜上名列前茅的視覺語言模型——以及GR00T N1.6,一個用於仿人機器人全身控制的開源VLA模型。搭配Isaac Lab-Arena評估框架與OSMO算力架構,NVIDIA正積極打造下一代機器人領域的平台層,吸引從Franka到NEURA Robotics的全球合作夥伴紛紛加入。
OpenAI於3月5日發布的GPT-5.4,是首款在電腦使用基準測試中超越人類表現的通用AI模型,在OSWorld-Verified上達到75%成功率,超過人類基準的72.4%。搭配百萬token上下文視窗與原生滑鼠、鍵盤、截圖互動支援,GPT-5.4標誌著自主AI代理在企業與開發者工作流程中的歷史轉折點。
Google 發布 Gemini 3.1 Flash Live,一款支援低延遲音訊對話、螢幕分享互動與即時工具呼叫的語音與視覺模型,全程透過單一 API 完成。模型支援逾90種語言,在多步驟函式呼叫基準測試中拿下90.8%,現已透過 Google AI Studio 與 Vertex AI 的 Live API 向開發者開放。
Meta 旗下超智慧實驗室(Meta Superintelligence Labs)正式推出第一款自研 AI 模型 Muse Spark,由前 Scale AI 執行長 Alexandr Wang 主導開發。這款閉源模型代表 Meta 放棄延續多年的 Llama 開源策略,在醫療推理與視覺多模態任務上表現突出,直接挑戰 OpenAI 與 Google 的前沿模型地位。
Anthropic 啟動 Project Glasswing,將旗下前沿模型 Claude Mythos Preview 限制性開放給 40 多個頂尖組織存取。這款模型已在所有主流作業系統與瀏覽器中識別出數千個零時差漏洞,其中最古老的一個已潛伏 27 年。Anthropic 認為此模型威力過強,無法公開發布,本次做法在 AI 產業史上史無前例。
根據 Axios 報導,Meta 旗下 Alexandr Wang 正在籌備發布首批由他主導開發的 AI 模型,計劃採取混合策略:較小型版本開源,但最強的前沿模型將保持專有——這是與 Llama 系列全面開放路線的重大轉向。此舉反映 Meta 面臨的競爭壓力加劇,也意味著 Meta 正式踏入與 OpenAI 爭奪全球開發者生態的直接對決。
三大 AI 巨頭透過 Frontier Model Forum 共享機密威脅情報,共同防禦「對抗性蒸餾」攻擊——中國競爭對手透過數萬個假帳號,從美國頂尖 AI 模型中大規模擷取訓練資料。這場史無前例的競爭對手合作,標誌著美國 AI 產業在國家安全壓力下的重大轉折。
微軟發布三款完全自主研發的基礎 AI 模型——MAI-Transcribe-1、MAI-Voice-1 與 MAI-Image-2,是迄今為止微軟最明確的訊號,顯示其意圖直接與 OpenAI 競爭。這一舉措背後,是雙方重新談判的合作協議——微軟獲得自建前沿模型的自由,同時保留至 2032 年取用 OpenAI 成果的授權。
DeepSeek V4——一款專為全程運行於華為昇騰 950PR 晶片而設計的兆參數多模態模型——即將於本月公開發布,證明中國已在本土半導體硬體上實現前沿 AI 能力。以每百萬 token 0.5 美元的定價與估計僅 520 萬美元的訓練成本,它直接挑戰了「美國出口管制能約束中國 AI 發展」的基本前提。
Anthropic 的可解釋性研究團隊在 Claude Sonnet 4.5 中識別出 171 個功能性情緒表徵,並證實這些內部向量能因果性地影響模型輸出,包括任務偏好、奉承傾向與獎勵駭客等對齊失敗行為。這項研究是機械式可解釋性的重大突破,也為 AI 福利與對齊研究開啟了新的討論。
Anthropic 因內容管理系統設定錯誤,無意間公開了其迄今最強大模型「Claude Mythos」的存在。早期測試者描述它是超越 Opus 的全新等級,在推理與資安領域展現出史無前例的能力——同時也帶來令人憂慮的雙重用途風險。
xAI 傳聞中擁有 6 兆參數混合專家架構的 Grok 5 未能在 2026 年第一季如期發布,目標改為第二季。馬斯克確認,位於田納西州孟菲斯的 Colossus 2 超算正從 1 GW 擴充至 1.5 GW,為日後的模型微調與大規模推理提供算力支撐。
OpenAI 於 2026 年 4 月 3 日完成 GPT-4o 的全面退役,同步下架 GPT-4.1 和 o4-mini。退役時,每日僅有 0.1% 的用戶仍選擇 GPT-4o。GPT-5.4 提供 Standard、Thinking 和 Pro 三個版本,已成為平台新基準——但 Gemini 3.1 Pro 以約三分之一的 API 成本,在 16 項主要基準測試中的 13 項領先。
OpenAI 發布兩款開放權重模型 gpt-oss-20b 與 gpt-oss-120b,採用 Apache 2.0 授權,終結長達七年的開源缺席。這兩款模型針對 AI 代理工作流程最佳化,直接與 Meta Llama 系列在效能與授權彈性上一較高下。
Noah Labs 的 AI 語音監測工具 Vox 獲得 FDA 突破性器材認定,透過分析每日五秒語音錄音,在住院前偵測心衰竭惡化跡象。這項工具已與梅奧診所及加大舊金山分校合作驗證,FDA 的認定代表主管機關認可其背後存在真實臨床證據。
Google Research 發表 TurboQuant,無需重新訓練即可將 LLM 的 KV 快取從 16 位元壓縮至約 3 位元,宣稱 6 倍記憶體縮減與 8 倍注意力加速且零精度損失。該技術將於 ICLR 2026 接受同儕審查。
Google 推出 Gemma 4 系列模型,參數量從 20 億到 310 億,基於 Gemini 3 同等研究成果打造。這是 Gemma 系列首次採用 Apache 2.0 授權,一口氣消除了過去阻擋企業大規模部署的所有授權限制。憑藉歷代累計超過 4 億次下載,這次授權轉變是 Google 爭奪開放權重模型主導地位最清晰的宣示。
DeepSeek V4 據報數週內即將上線,模型已重寫以支援華為昇騰晶片而非 Nvidia 硬體。外洩的基準測試宣稱 SWE-bench Verified 達 80% 以上、訓練成本僅 520 萬美元——若屬實,將成為史上能力最強的開放權重模型,同時標誌著中國 AI 技術棧主動脫離美國管控硬體的里程碑。
Anthropic 因 CMS 設定錯誤,意外曝光代號「Mythos」的全新模型,定位在 Opus 之上的「Capybara」產品層級。公司目前正私下向美國官員簡報其前所未有的資安風險,同時進行有限度的早期存取測試。
AI 實驗室快用完高品質的人類生成訓練資料了。解方 — 用 AI 生成的資料來訓練 — 效果出奇地好,但產生了沒人完全理解的風險。
內部測試結果顯示 GPT-5 的進步幅度比預期窄很多。「加大就對了」的時代可能正式結束了,但這對整個產業來說其實是好消息。
開源模型追上閉源的速度比所有人預期的都快。但「開源」對 Meta、Mistral 和阿里巴巴來說意義完全不同。