Wispr AI 衝刺 20 億美元估值:語音輸入正在進化為「語音作業系統」
語音聽寫應用 Wispr Flow 的開發商 Wispr AI,正洽談由 Menlo Ventures 領投的約 2.6 億美元融資,估值將突破 20 億美元。在 Nvidia、Amazon 員工廣泛採用、累積逾 250 萬次下載的背景下,這家新創正從聽寫工具轉型為「環境語音作業系統」。
去年 11 月,Wispr AI 的估值是 7 億美元。六個月後,這家新創正在洽談一輪讓自身估值翻近三倍、逼近 20 億美元的融資——而它認為自己真正的雄心壯志,才剛要開始。
Bloomberg 本週報導,Wispr Flow 語音聽寫應用的開發商 Wispr AI,正與 Menlo Ventures 就領投約 2.6 億美元的新一輪融資進行進階談判。這筆交易尚未敲定,但若成功完成,將使這家新創的外部融資總額突破 3.4 億美元;早期投資人 Notable Capital 與 Flight Fund 預計也將參與跟投。
這輪融資的時間點,正是語音 AI 正在悄然發生質變的時刻——從醫師、律師等利基族群的效率工具,演化為越來越多知識工作者願意付費購買的主流介面層。
Wispr Flow 究竟做了什麼
產品表面看來極其簡單:開口說話,文字就出現了——整理乾淨、格式化,並配合你當下的操作情境。但真正讓 Wispr 脫穎而出的,是它的實作方式。
不同於傳統聽寫軟體,Wispr Flow 並非單純的語音轉文字服務。系統會隨時間學習每位使用者的寫作風格,自動去除語助詞,並根據當前應用程式調整輸出格式——在郵件撰寫視窗和 Slack 聊天框、程式碼助手提示欄,文字會以不同方式呈現。它還能記憶使用者常用的領域專業術語,持續優化輸出品質。
目前產品支援超過 104 種語言,在 macOS、Windows、iOS、Android 上皆可原生運行,幾乎涵蓋所有專業運算環境。使用者以快速鍵即可在任意文字輸入欄位喚起它,讓它幾乎成為一個隱形的底層工具,而非另一個需要切換的應用程式。
企業採用是驅動成長的引擎。Nvidia、Amazon 員工及數百個組織——包含多家《財星》500 大企業——據報正以 Wispr Flow 作為與 AI 程式碼助手及職場生產力工具互動的主要介面。Menlo Ventures 據報採用的框架是:對相當一部分知識工作者而言,Wispr Flow 已成為他們的主要輸入方式,不再是打字的輔助工具,而是替代品。
融資背後的數據
2026 年初,Wispr Flow 自 2025 年底上線以來已累積約 250 萬次全球下載,企業採用速度據該公司表示遠高於個人消費者成長。這款應用已達到投資人在主導成長輪前最看重的指標:留存率,而非僅僅是下載量。
以 20 億美元投後估值計算的 2.6 億美元新融資,代表向一家相對早期的公司部署了可觀的資本。Menlo Ventures 的投資組合集中於企業 AI 基礎設施,此次出手看來是押注語音輸入即將從利基工具演變為企業預設介面層。
交易細節仍在商談中,Bloomberg 也指出最終條款可能有所調整。但方向清晰:投資人正將語音優先 AI 介面視為一個獨立類別,與傳統語音助理(Siri、Alexa)及大語言模型介面(ChatGPT、Claude)區隔開來,而 Wispr 正定位自身為這個中間層的基礎設施提供者。
「語音作業系統」的命題
Wispr 故事真正有趣的地方,不在於聽寫能力本身——那項技術從 1997 年 Dragon NaturallySpeaking 發布時就已存在——而在於這家公司所勾勒的更大野心:打造一個「語音作業系統(Voice OS)」,一個介接人類語音與任何數位系統的環境運算層。
這個定位對估值意義重大。語音聽寫應用在一個作業系統廠商隨時可以原生整合的功能類別競爭;而語音作業系統若成功,將坐落於應用程式層之下,成為使用者與一切事物互動的情境框架。這是本質上不同的商業命題,而估值正是在反映投資人願意押注哪種未來。
執行挑戰相當可觀。蘋果、Google 和微軟都在大力投資語音介面能力,而這些能力理論上都可能複製 Wispr Flow 所提供的價值。蘋果預計在 6 月 WWDC 詳細揭露的 Siri 大改版,包含了擴展的裝置端智能與跨應用程式情境感知——這些功能與 Wispr Flow 的核心賣點直接重疊。Google Gemini 助理也正深化與 Android 的整合,可能形成類似的競爭壓力。
市場背景
Wispr 此次融資,落在語音 AI 類別整體加速的大背景之下。ElevenLabs 4 月以約 45 億美元估值完成 5 億美元融資,主力業務是語音合成與音訊生成。OpenAI 5 月推出了延遲更低、多語言能力更強的 GPT-Realtime-2。市場顯然正在獎勵具備真實使用量數據的語音 AI 公司。
但語音「輸入」端——語音 AI 方程式的另一側——競爭明顯比語音「輸出」端稀疏。ElevenLabs 本質上是內容生成業務;Wispr 則定位為介面基礎設施。如果語音作業系統的命題成立,這個區別至關重要。
對於每天花費大量時間與 AI 程式碼助手、文件系統和溝通工具互動的企業用戶來說,自然語音輸入帶來的摩擦消除是實質且可量化的。Wispr 的賭注是:這種摩擦消除值得付費,而且每位知識工作者每月 20 至 30 美元的定價,企業 IT 部門完全可以用生產力提升來合理化。
這一輪融資傳遞的訊號
這個規模的融資,通常意味著公司已建立起投資人認為難以複製的護城河:分發渠道、專有數據集、轉換成本,或讓後期競爭代價高昂的品牌認同。對 Wispr 而言,最可能的護城河,是行為數據(數百萬使用者累積的寫作風格模型)與已嵌入生產力工作流程的企業分發關係的組合。
Menlo Ventures 和其他參與者是否正確定價了這條護城河,未來 18 個月將有答案。可以確定的是,具備真實企業採用量的語音 AI 新創,正在獲得兩年前難以想像的高估值。而 Wispr 憑藉個人消費者規模與企業深度的結合,正在有力論證自己為何值得在這個梯次名列前茅。