TwelveLabs 完成 1 億美元 B 輪融資,打造全球影片智慧基礎設施
影片 AI 新創 TwelveLabs 由 NEA 與 NAVER Ventures 共同領投,完成 1 億美元 B 輪融資,Amazon 同步宣布成為其首選雲端合作夥伴。這筆資金將加速 TwelveLabs 實現「影片超級智慧」的願景——一套能感知、記憶並跨影片庫進行推理的完整認知系統,將世界上數以億計的影片內容轉化為 AI 可直接操作的結構化知識。
全球每天產生約 72 萬小時的新影片內容,但其中幾乎沒有任何一部分能被電腦真正「讀懂」。文字可以在毫秒內被索引、搜尋、供 AI 系統推理;影片——儘管承載了遠比任何文字語料庫更豐富的現實世界資訊——對機器而言至今仍是一個黑盒,只能透過人工附加的元資料進行查詢。
總部橫跨舊金山與首爾的 AI 新創 TwelveLabs,過去三年都在試圖改變這個現狀。本週二,公司宣布完成 1 億美元 B 輪融資,用以加速其所稱的「影片超級智慧」——一套能以機器速度感知、記憶並跨影片集合進行推理的完整認知架構。
本輪融資由 NEA 與韓國網路巨頭 NAVER 旗下創投共同領投,自 TwelveLabs 早期便長期跟投。其他投資方包括 Amazon、Radical Ventures、Korea Investment Partners、Index Ventures、Quadrille Capital 及 Red Bull Ventures。在同一時間,Amazon 宣布成為 TwelveLabs 的首選雲端合作夥伴,首批針對 Trainium 晶片最佳化的新模型將優先在 AWS 上發布——這項軟硬體協同設計的合作模式,正逐漸成為 AI 基礎設施交易的新標配。
影片超級智慧究竟是什麼
TwelveLabs 的技術架構建立在三個相互咬合的能力之上,公司稱之為感知(Perception)、記憶(Memory)與推理(Reasoning)。
感知是攝取層。不同於將影片視為連續圖像幀的傳統做法,TwelveLabs 的模型將影片處理為一個多模態串流:視覺動作、環境音效、語音轉錄與畫面文字同時輸入同一個統一表示空間。這比聽起來困難得多——多數商業影片 AI 系統不是聚焦視覺而忽略音訊,就是將語音識別獨立成另一條管線而遺漏視覺脈絡。將四種訊號同步整合進單一模型,需要公司認為在市面上確有差異化的架構選擇。
第三代影片表示模型 Marengo 將這些多模態訊號編碼進可搜尋的向量空間。工程師或 AI 代理可以用自然語言查詢(例如「找出客戶在客服通話中流露挫折感的每一個時刻」),並以毫秒級延遲取得帶有時間戳的片段——即使是橫跨數千小時素材的龐大影片庫亦然。
記憶層將搜尋能力轉化為結構化資料。伴隨 Marengo 一同運作的 Pegasus 模型,能將影片轉化為下游系統真正可用的輸出格式:場景邊界、實體清單、時序片段,以及帶有時間戳的語意摘要。Pegasus 不只是回傳影片片段,而是建立一張影片內容的機器可讀知識圖譜——這種結構化表示才能支撐真正的推理,而非僅僅是查詢。
推理是第三層,也是公司目前的技術開發前線:跨時間進行分散式分析,識別模式、追蹤跨片段的變化,並回答需要串聯同一影片不同時刻——乃至不同影片——資訊的因果性問題。
市場在哪裡
影片智慧的商業潛力廣泛到橫跨幾乎所有行業。體育聯盟希望自動為數十年的歷史賽事素材逐一打標籤;資安維運中心希望用自然語言查詢監控攝影機網絡,而不必回放大量錄影;媒體公司希望 AI 在網路上找出所有未授權的剪輯片段;保險調查員想自動比對行車記錄器畫面與事故報告;訓練資料公司則想從工業影片流中萃取特定人類行為的標記樣本。
這些應用的共同點,在於都需要以語意層面「理解」影片——而這正是過去的方法無法做到的。幀級分類能告訴你「這一幀畫面裡有一輛車」;Marengo 則能告訴你「這是駕駛人的表情從警覺轉為驚慌的時刻,發生在碰撞前三秒,音軌同時捕捉到輪胎嘶鳴聲」。
TwelveLabs 尚未公布營收數字,但已悄然在多個垂直行業建立客戶關係。與 Snowflake 的整合,以及 AWS AI Competency 認定,顯示公司採取的是面向企業採購流程的市場策略——這類策略通常能帶來更大的合約金額與更高的客戶黏著度。
影片 AI 競爭格局
TwelveLabs 所在的賽道自多模態 AI 模型展現影片理解能力以來,已吸引高度關注。Google DeepMind 的 Gemini 模型支援影片輸入處理;OpenAI 的 Sora 及後續世代則以文字生成影片。但 TwelveLabs 瞄準的是一個不同的問題:大規模理解與索引現有影片,而非生成新內容,兩者需要截然不同的架構選擇。
近期披露 5 億美元營收與 50 億美元估值的影片生成新創 Higgsfield AI,代表市場的創意生成端;TwelveLabs 則瞄準分析智慧端——理解螢幕上已有的內容,而非創造新畫面。兩者的應用互補,目標客群也大相逕庭。
NAVER 的戰略入股同樣值得關注。作為韓國最大的網路平台之一,NAVER 在其搜尋、媒體與電子商務業務中管理著龐大的影片資產。TwelveLabs 的技術若能深度嵌入 NAVER 的基礎設施,將為這家新創提供全球規模最高的生產環境之一——一個能吸引客戶和研究人才的強力驗證飛輪。
為何此刻尤為關鍵
這輪融資的時機,恰好與自主 AI 代理系統的興起同步——這些能自行瀏覽、分析並對資訊採取行動、無需人類持續監督的軟體代理,目前在文字領域已取得長足進展,因為網路的主體是文字。但現實世界——製造廠房、零售門市、十字路口、病房、工地——不是文字,而是影片。
TwelveLabs 這 1 億美元的賭注,從根本上說,是在押注 AI 能力的下一個重大前沿,不是讓語言模型在書面文字方面更聰明,而是賦予 AI 系統清晰到足以在現實世界中採取行動的視覺感知能力。
公司的創立前提一語道破:「世界不發生在文字裡,世界發生在動態影像中。」如果 TwelveLabs 賭對了,那麼建構影片智慧層的公司,將在每一個未來與現實世界互動的 AI 代理身上,都擁有不可或缺的一席之地。