跳至主要內容
FAQ

Mistral 發布 OCR 4:支援 170 語言的結構化文件 AI,人工評估勝率高達 72%

Mistral AI 於 2026 年 6 月 23 日發布 OCR 4,一個能提供邊界框、類型化區塊分類和置信度分數的企業文件智慧模型,支援 170 種語言並可完全自行部署。在獨立人工評估中,OCR 4 以 72% 的勝率擊敗所有主要競爭對手,包括 Google Document AI 和 AWS Textract,定價每千頁 4 美元。

1 分鐘閱讀

企業 AI 中那些最不光鮮亮麗的工作,往往是文件萃取。在任何 RAG 管線能夠檢索上下文之前,在任何 AI 代理能夠審計合規文件之前,在任何財務模型能夠消化季度報告之前——都需要有什麼東西將非結構化 PDF、掃描發票和手寫表格轉換為乾淨的結構化資料。這項工作長期以來屬於傳統 OCR 工具,或是 AWS、Google 和 Microsoft 提供的昂貴、不透明雲端服務。

Mistral AI 想要佔據這個位置。2026 年 6 月 23 日,這家公司推出了 OCR 4,一個遠超字元識別的文件智慧模型,能提供結構化、帶置信度分數、感知版面配置的輸出——而且根據獨立人工評估人員的結果,它做得比任何現有替代方案都好。

OCR 4 究竟能做什麼?

關鍵的區別在於:傳統 OCR 讀取文字,OCR 4 理解文件。

當 OCR 4 處理一份文件時,它返回包含以下內容的結構化表示:

邊界框(Bounding Boxes):針對每個偵測到的元素——不只是文字行,還有表格、圖形、方程式、簽名、標題和腳注,每個元素都附有在原始文件中的像素級坐標。

類型化區塊分類(Typed Block Classification):每個元素都標有其語義角色:標題、章節標題、正文段落、表格單元格、方程式、說明文字、簽名、表格欄位。模型能夠區分視覺上相似但文件功能不同的元素。

內聯置信度分數(Inline Confidence Scores):除了每段萃取文字外,OCR 4 還返回一個置信度值(0 至 1),下游系統可用於分流人工審核、將低置信度段落路由到品質檢查佇列,或標記可能需要重新掃描的文件。

結構化輸出(Structured Output):完整的文件層次結構,以機器可讀格式呈現,可直接攝取到向量數據庫、知識圖譜或企業搜尋索引中。

這在實務上造成的差異是:基於 OCR 4 建構的系統,不只知道「文件說『收入為 42 億美元』」,而是知道「文件說『收入為 42 億美元』,它位於第 8 頁財務摘要部分的表格單元格中,模型對這次萃取有 97% 的信心,如果你需要引用或驗證,這裡是原始坐標。」對於企業應用——合規審計、合約審閱、財務分析、監管申報——那些情境性元資料通常與文字本身同等重要。

效能:72% 的勝率

Mistral 發布了獨立評估結果,顯示 OCR 4 在所有測試的領先 OCR 和文件 AI 系統中表現最佳。在由獨立人工評注者評分的一對一比較中,OCR 4 在整個競爭對手組合中贏得了 72% 的比賽。

在文件理解的標準學術基準 OlmOCRBench 上,OCR 4 達到了 85.20,是所有評估模型中的最高分。

測試的競爭對手包括 Google Document AI、AWS Textract、Azure AI Document Intelligence 和 ABBYY Vantage。Mistral 沒有公布針對個別競爭對手的勝率,但在整個測試組合中 72% 的平均勝率,意味著對每個競爭對手都有一致的優勢差距。

評估方法在這裡很重要:由人工評注者而非自動化指標決定勝負。這種方法能捕捉到基準分數可能遺漏的品質——版面保真度、萃取文字的可讀性、區塊分類決策的合理性。在整個現有市場面前,72% 的人類偏好勝率並非邊際差距。

企業就緒:自行部署與多雲支援

對受監管的行業而言,OCR 4 戰略上最重要的方面不是效能,而是部署模式。

系統在一個單一容器中運行,可完全自行部署,推論期間不需要外部 API 呼叫。這解決了企業對基於雲端 OCR 的核心疑慮之一:資料治理。在銀行、保險、醫療保健和法律服務領域,文件通常包含組織在法律或合約上不能傳送到第三方雲端 API 的資訊。自行部署的 OCR 完全消除了這個限制。

透過託管 API 的定價為每千頁 4 美元,透過批次 API 用於高容量異步工作負載時降至每千頁 2 美元。該模型也可透過 Amazon SageMakerMicrosoft Azure AI Foundry 獲取,服務已承諾使用這些雲端提供商的客戶。

語言支援涵蓋 10 個語言組的 170 種語言,包括 CJK 文字(中文、日文、韓文)、阿拉伯文、希伯來文、梵文、西里爾字母及多種拉丁字母歐洲語言。繁體中文支援完整,對台灣企業處理本地文件格外重要。對於處理多個司法管轄區文件的跨國企業——處理跨境合約的律師事務所、審計國際子公司的銀行、攝取來自數十個國家的運輸文件的物流公司——這消除了對特定語言 OCR 管線的需求。

RAG 和代理管線的應用角度

OCR 4 的設計明確面向服務 AI 管線的攝取層——特別是在文件知識上運行的檢索增強生成(RAG)系統和代理工作流程。

邊界框輸出意味著下游系統不只能引用文字段落,還能引用文件的物理位置。對企業合規應用而言,這至關重要:如果 AI 代理標記合約中一個潛在有問題的條款,知道該條款的確切頁面和坐標,對審計追蹤和人工審核工作流程非常重要。

置信度分數支援大規模的人機混合審核。下游系統可以將低置信度的萃取結果路由到人工審核佇列,同時自動處理高置信度輸出,而不是將所有 OCR 輸出視為同等可靠。這是一種實用的工程模式,能夠在不犧牲最重要文件精確度的情況下,對大量文件進行具成本效益的處理。

結構化的區塊分類也使 OCR 4 的輸出更適合用於分塊——即將文件分割成片段以進行向量嵌入的過程。與按字元數或段落分隔符分塊(可能在表格中間或公式中間分割)不同,基於 OCR 4 建構的系統可以按語義區塊類型分塊,保留原始文件的邏輯結構。

競爭定位

OCR 4 進入了一個由三大超大規模廠商服務(Google Document AI、AWS Textract、Azure AI Document Intelligence)和一個企業專業公司(ABBYY Vantage)主導的市場。

如果你已在其平台上,超大規模廠商的 API 很方便,但它們在添加企業部署靈活性方面一直很緩慢,其置信度分數實作也因不一致性而受到批評。

ABBYY Vantage 提供強大的結構感知萃取,但需要昂貴的每座授權費用和難以在雲端原生規模部署的本地基礎設施。

Mistral 的方法——模型優先、透明的置信度評分、可在任何規模自行部署——反映了其在 LLM 領域突圍的策略:以與最大廠商競爭的效能,加上受監管行業實際上可用的部署選項。

定價模式也明顯不同。每千頁 4 美元(批次 API 2 美元),OCR 4 與 Google Document AI 競爭,並在可比較容量下明顯比 ABBYY 便宜。對每月處理數百萬頁的組織而言,即使不計算延遲和資料駐留優勢,自行部署的成本核算也相當有吸引力。

Mistral 從中獲得什麼?

文件萃取是一個楔入產品。開始使用 OCR 4 攝取文件的組織,正在建立自然連接到後續步驟的管線:嵌入萃取的文字、為搜尋建立索引、將其送入 RAG 系統、用 LLM 生成摘要或分析。管線中的每個步驟都是 Mistral 的潛在接觸點。

過去十八個月,公司系統性地擴展了其核心 LLM 業務——Mistral Embed、Mistral Fine-Tuning,現在是 OCR 4——建立了一個能力組合,各自針對特定的企業工作流程,整體上將 Mistral 定位為全棧 AI 提供商,而非單點解決方案。

OCR 4 為 Mistral 提供了一個可信的答案,來回應每個企業在評估任何 AI 供應商之前都會問的第一個問題:「你能處理我們的文件嗎?」截至 2026 年 6 月,這個答案,有獨立評估作為支撐,似乎是一個決定性的「是」。

mistral ocr 文件 AI 企業 開發者工具 RAG 自行部署
分享

相關報導

OpenRouter Fusion:廉價模型組合超越 GPT-5.5,成本只要一半

OpenRouter 於 6 月 13 日推出 Fusion,這是一個多模型 API,將提示詞同時發送給多個 AI 模型,再由裁判模型將各方回覆合成為單一答案。由 Gemini 3 Flash、Kimi K2.6 和 DeepSeek V4 Pro 組成的預算組合,在 DRACO 深度研究基準測試上得分 64.7%,以約一半的成本匹敵 Fable 5 的單獨表現;而頂級的 Fable 5 加 GPT-5.5 組合則達到 69%,超越所有單獨測試的模型。

1 分鐘閱讀