TwelveLabs 完成 1 億美元 B 輪融資，打造全球影片智慧基礎設施

影片 AI 新創 TwelveLabs 由 NEA 與 NAVER Ventures 共同領投，完成 1 億美元 B 輪融資，Amazon 同步宣布成為其首選雲端合作夥伴。這筆資金將加速 TwelveLabs 實現「影片超級智慧」的願景——一套能感知、記憶並跨影片庫進行推理的完整認知系統，將世界上數以億計的影片內容轉化為 AI 可直接操作的結構化知識。

1 小時前 1 分鐘閱讀

全球每天產生約 72 萬小時的新影片內容，但其中幾乎沒有任何一部分能被電腦真正「讀懂」。文字可以在毫秒內被索引、搜尋、供 AI 系統推理；影片——儘管承載了遠比任何文字語料庫更豐富的現實世界資訊——對機器而言至今仍是一個黑盒，只能透過人工附加的元資料進行查詢。

總部橫跨舊金山與首爾的 AI 新創 TwelveLabs，過去三年都在試圖改變這個現狀。本週二，公司宣布完成 1 億美元 B 輪融資，用以加速其所稱的「影片超級智慧」——一套能以機器速度感知、記憶並跨影片集合進行推理的完整認知架構。

本輪融資由 NEA 與韓國網路巨頭 NAVER 旗下創投共同領投，自 TwelveLabs 早期便長期跟投。其他投資方包括 Amazon、Radical Ventures、Korea Investment Partners、Index Ventures、Quadrille Capital 及 Red Bull Ventures。在同一時間，Amazon 宣布成為 TwelveLabs 的首選雲端合作夥伴，首批針對 Trainium 晶片最佳化的新模型將優先在 AWS 上發布——這項軟硬體協同設計的合作模式，正逐漸成為 AI 基礎設施交易的新標配。

影片超級智慧究竟是什麼

TwelveLabs 的技術架構建立在三個相互咬合的能力之上，公司稱之為感知（Perception）、記憶（Memory）與推理（Reasoning）。

感知是攝取層。不同於將影片視為連續圖像幀的傳統做法，TwelveLabs 的模型將影片處理為一個多模態串流：視覺動作、環境音效、語音轉錄與畫面文字同時輸入同一個統一表示空間。這比聽起來困難得多——多數商業影片 AI 系統不是聚焦視覺而忽略音訊，就是將語音識別獨立成另一條管線而遺漏視覺脈絡。將四種訊號同步整合進單一模型，需要公司認為在市面上確有差異化的架構選擇。

第三代影片表示模型 Marengo 將這些多模態訊號編碼進可搜尋的向量空間。工程師或 AI 代理可以用自然語言查詢（例如「找出客戶在客服通話中流露挫折感的每一個時刻」），並以毫秒級延遲取得帶有時間戳的片段——即使是橫跨數千小時素材的龐大影片庫亦然。

記憶層將搜尋能力轉化為結構化資料。伴隨 Marengo 一同運作的 Pegasus 模型，能將影片轉化為下游系統真正可用的輸出格式：場景邊界、實體清單、時序片段，以及帶有時間戳的語意摘要。Pegasus 不只是回傳影片片段，而是建立一張影片內容的機器可讀知識圖譜——這種結構化表示才能支撐真正的推理，而非僅僅是查詢。

推理是第三層，也是公司目前的技術開發前線：跨時間進行分散式分析，識別模式、追蹤跨片段的變化，並回答需要串聯同一影片不同時刻——乃至不同影片——資訊的因果性問題。

市場在哪裡

影片智慧的商業潛力廣泛到橫跨幾乎所有行業。體育聯盟希望自動為數十年的歷史賽事素材逐一打標籤；資安維運中心希望用自然語言查詢監控攝影機網絡，而不必回放大量錄影；媒體公司希望 AI 在網路上找出所有未授權的剪輯片段；保險調查員想自動比對行車記錄器畫面與事故報告；訓練資料公司則想從工業影片流中萃取特定人類行為的標記樣本。

這些應用的共同點，在於都需要以語意層面「理解」影片——而這正是過去的方法無法做到的。幀級分類能告訴你「這一幀畫面裡有一輛車」；Marengo 則能告訴你「這是駕駛人的表情從警覺轉為驚慌的時刻，發生在碰撞前三秒，音軌同時捕捉到輪胎嘶鳴聲」。

TwelveLabs 尚未公布營收數字，但已悄然在多個垂直行業建立客戶關係。與 Snowflake 的整合，以及 AWS AI Competency 認定，顯示公司採取的是面向企業採購流程的市場策略——這類策略通常能帶來更大的合約金額與更高的客戶黏著度。

影片 AI 競爭格局

TwelveLabs 所在的賽道自多模態 AI 模型展現影片理解能力以來，已吸引高度關注。Google DeepMind 的 Gemini 模型支援影片輸入處理；OpenAI 的 Sora 及後續世代則以文字生成影片。但 TwelveLabs 瞄準的是一個不同的問題：大規模理解與索引現有影片，而非生成新內容，兩者需要截然不同的架構選擇。

近期披露 5 億美元營收與 50 億美元估值的影片生成新創 Higgsfield AI，代表市場的創意生成端；TwelveLabs 則瞄準分析智慧端——理解螢幕上已有的內容，而非創造新畫面。兩者的應用互補，目標客群也大相逕庭。

NAVER 的戰略入股同樣值得關注。作為韓國最大的網路平台之一，NAVER 在其搜尋、媒體與電子商務業務中管理著龐大的影片資產。TwelveLabs 的技術若能深度嵌入 NAVER 的基礎設施，將為這家新創提供全球規模最高的生產環境之一——一個能吸引客戶和研究人才的強力驗證飛輪。

為何此刻尤為關鍵

這輪融資的時機，恰好與自主 AI 代理系統的興起同步——這些能自行瀏覽、分析並對資訊採取行動、無需人類持續監督的軟體代理，目前在文字領域已取得長足進展，因為網路的主體是文字。但現實世界——製造廠房、零售門市、十字路口、病房、工地——不是文字，而是影片。

TwelveLabs 這 1 億美元的賭注，從根本上說，是在押注 AI 能力的下一個重大前沿，不是讓語言模型在書面文字方面更聰明，而是賦予 AI 系統清晰到足以在現實世界中採取行動的視覺感知能力。

公司的創立前提一語道破：「世界不發生在文字裡，世界發生在動態影像中。」如果 TwelveLabs 賭對了，那麼建構影片智慧層的公司，將在每一個未來與現實世界互動的 AI 代理身上，都擁有不可或缺的一席之地。

資料來源

影片 AI 多模態 B 輪融資影片理解代理 AI

TwelveLabs 完成 1 億美元 B 輪融資，打造全球影片智慧基礎設施

影片超級智慧究竟是什麼

市場在哪裡

影片 AI 競爭格局

為何此刻尤為關鍵

資料來源

相關報導

Anthropic 推出 Claude Sonnet 5：以一半價格實現旗艦級 AI 自動化能力

Higgsfield AI 年化營收突破 5 億美元，正洽談以 50 億美元估值募集新一輪資金