豐田在 Woven City 發表 AI Vision Engine：真實世界的實體 AI 平台

豐田與軟體子公司 Woven by Toyota 於 4 月 22 日在 Woven City 發表了一套 AI 技術，核心是 AI Vision Engine——一個在影片理解評測中躋身全球頂尖的多模態基礎模型。此次發布將豐田耗資逾百億美元打造的日本實體測試城市，正式轉型為活躍的 AI 部署平台，並計劃將相關技術商業化推廣至城市之外。

2026年4月23日 1 分鐘閱讀

豐田花了將近十年、據報投入逾百億美元，在日本靜岡縣裾野市打造了一座 175 英畝的測試環境 Woven City，並於 2025 年九月正式對外開放居民與合作企業進駐。4 月 22 日，豐田部署了這座城市始終預設要成為神經系統的 AI。

此次發表的核心是 Woven City AI Vision Engine——一個大型多模態基礎模型，專為即時理解並回應真實世界的物理環境條件而生。與此同時，豐田與軟體子公司 Woven by Toyota（WbyT）詳細介紹了 Kakezan 計畫，以及 Inventor Garage 的正式啟用：前者是一套與外部夥伴「發明家（Inventors）」在城市內共同創造解決方案的新框架，後者則是在城市內部打造的新創企業發展基地，已於本月開始運作。

AI Vision Engine 究竟做什麼

AI Vision Engine 是一個多模態大型語言模型，專注於從圖像與影片資料中進行時空理解。它整合視覺資訊流、行為資料與環境訊號——包括監視器畫面、移動系統輸出和用戶輸入——即時合成對城市連接系統的態勢感知。核心能力包括：在安全風險發生前主動識別、協調自動駕駛車輛、機器人與基礎設施系統的跨系統聯動，以及針對快速變化的物理條件做出預測性回應。

技術層面，該模型支援視覺問答、時空內容分析，以及圖像與影片字幕生成。推論服務部署於 Amazon SageMaker 上，可供城市合作夥伴生態系存取，並最終面向外部商業客戶開放。豐田聲稱該模型在 MVBench 評測中（影片型 AI 理解與分析的標準基準測試）達到全球頂尖水準。

豐田最早的概念驗證部署對象是上島珈琲事業（UCC Japan），這家咖啡與自動販賣機公司是 Woven City 的創始發明家之一。具體應用細節目前尚未公開，但這次合作本身揭示了應用場景的廣度：這不僅僅是一個自動駕駛模型——任何在動態環境中運營實體資產的企業，包括物流、製造、零售和餐飲業，都有潛在的落地空間。

Kakezan：以「乘法」為方法論

此次發表的核心框架是 Kakezan——日文「乘法」的意思——WbyT 用它來描述創新方法論的核心：將豐田百年的大規模生產經驗、WbyT 的軟體開發能力，以及外部發明家的獨特專業結合在一起，讓各自的優勢彼此相乘，產生遠超加法的影響力。

這個定位至關重要，因為它讓 Woven City 有別於過去大型企業打造的封閉式研發園區。Kakezan 要求外部合作夥伴在真實居民入住、真實運作條件下開發真實產品。從原型到真實世界部署的回饋迴圈——壓縮到數週而非數年——正是豐田向外部發明家和評估這筆巨額投資報酬的投資人所售賣的核心資產。

Inventor Garage 與加速器計畫

Woven City 接納外部企業的基礎設施本月以 Inventor Garage 的形式落地——一個集共同創作空間、原型測試區域與住宿設施於一體的園區，讓創辦人和工程師能在開發過程中直接住在城市裡。這一設計試圖消除設計、建造、測試與真實世界回饋之間的距離，把四個環節放在同一個地點完成。

發明家的招募管線也在 4 月 23 日迎來里程碑：豐田 Woven City 挑戰賽（去年八月宣布的加速器計畫）舉行最終路演，優勝者將以發明家身份加入 Woven City，獲得 Inventor Garage 的設施、AI Vision Engine 的 API 存取權，以及豐田的生產與通路資源。

實體 AI 的宏觀脈絡

豐田此次發表，恰好發生在 2026 年最鮮明的技術主題形成的過程中：AI 與物理世界的融合。輝達在二月發表了 Cosmos 與 GROOT 實體 AI 框架；Google 在四月將 Gemini Robotics ER 部署到 Boston Dynamics Spot 機器人；亞馬遜上週宣布的 Project Prometheus，正在打造一個機器人與實體 AI 實驗室，商業化貝佐斯十年的個人投資成果。

豐田做法的獨特之處，在於部署環境本身。大多數實體 AI 系統在模擬資料上訓練、在嚴格控制的實驗室環境中驗證。Woven City 提供了一種更稀缺的東西：一個有真實居民、真實邊緣案例和真實操作需求的城市環境——而這些是任何模擬都無法完全預測的。交通管理系統、配送機器人和家庭助理，在「賭注是真實的」情境下行為截然不同——當一名老年居民真的在等待藥物送達，而不是一個測試負載時，系統面對的壓力才是貨真價實的。

WbyT 審慎地將其核心哲學定位為輔助而非取代：AI 應強化人類的判斷力與體能，而非替換人類。這個立場既出於原則，也有商業層面的務實考量。在日本，社會對自主系統的信任歷來低於西方，打造能明確與人類協同工作的 AI，可能是實現大規模普及的唯一政治可行路徑。

這對豐田以外的世界意味著什麼

豐田的大規模生產體量意味著，任何在 Woven City 得到驗證的 AI 系統，都有一條直達全公司全球製造與物流網絡的天然部署路徑——這是地球上規模最龐大的實體運營體系之一。一個在 Woven City 降低安全事故的視覺模型，有可能在 18 個月內部署到豐田的 50 座工廠；一個在 Woven City 街道驗證的移動協調系統，有可能影響豐田下一代車型的軟體架構。

WbyT 也明確傳達了母公司以外的商業野心。AI Vision Engine 作為獨立產品登陸 AWS Marketplace，面向外部客戶開放，確認了 WbyT 打算將這個模型作為服務銷售，而不只是內部使用。這使其直接對標輝達的 Cosmos 平台和 Google 的 Gemini Robotics 系列，加入一個正在成形的重要新市場：專為真實物理環境設計的基礎模型。

對任何在物流、製造、零售或城市基礎設施領域運營的企業而言，AI Vision Engine 理解動態物理環境的即時能力，填補了以文本為主的語言模型無從觸及的能力空白。豐田的判斷是：擁有一座城市規模的活體測試環境，是在真實生產品質上驗證這種能力的無可超越的先發優勢。

資料來源

豐田 Woven City 實體 AI 視覺語言模型自動駕駛機器人日本

豐田在 Woven City 發表 AI Vision Engine：真實世界的實體 AI 平台

AI Vision Engine 究竟做什麼

Kakezan：以「乘法」為方法論

Inventor Garage 與加速器計畫

實體 AI 的宏觀脈絡

這對豐田以外的世界意味著什麼

資料來源

相關報導

NVIDIA發布Cosmos Reason 2與GR00T N1.6，全力加速實體AI機器人發展

本週日逾 100 台人形機器人將在北京跑半程馬拉松

Google DeepMind 發布 Gemini Robotics-ER 1.6，讓 Boston Dynamics Spot 擁有真正的空間推理能力