打敗撲克職業選手的 DeepMind 團隊,現在用同樣的 AI 征服金融市場
EquiLibre Technologies 由創造了 DeepStack(史上首個打敗職業選手的德州撲克 AI)的三位研究員共同創立,最新融資估值達 5 億美元。這家設在布拉格的實驗室,將同一套強化學習技術應用於股票與加密貨幣交易,自上線以來保持「零負報酬月份」紀錄,合作夥伴為量化交易巨頭 Tower Research Capital。
2017 年,三位在 DeepMind 艾德蒙頓研究室的訪問博士生發表了一篇改寫 AI 博弈史的論文。他們打造的系統 DeepStack,成為史上第一個在無限注德州撲克中擊敗職業選手的人工智慧——這是一場充滿不完整資訊、虛張聲勢與機率推理的博弈,長期以來抵禦著征服西洋棋與圍棋的各種 AI 方法。
將近十年後,同一個三人組將 DeepStack 的核心思想轉向了一個籌碼更大的博弈:金融市場。他們的公司 EquiLibre Technologies 完成了由瑞典創投 Creandum 領投的 A 輪融資——Creandum 自稱這是該公司有史以來最大的單筆投資——估值達 5 億美元。這家總部設在布拉格的新創公司表示,其演算法自上線以來維持「零負報酬月份」紀錄,與量化交易巨頭 Tower Research Capital 合作,每日在標普 500 與那斯達克市場上管理數十億美元的交易量。
DeepStack 背後的三個人
Martin Schmid(執行長)、Rudolf Kadlec(技術長)與 Matej Moravcik(科學長)是在 DeepMind 艾德蒙頓分部工作時共同研發了 DeepStack。這個後來被 Alphabet 於 2023 年關閉的研究室,曾是全球 AI 人才最密集的據點之一。三人的撲克 AI 研究成果於 2017 年發表在《科學》期刊,瞬間將他們推上強化學習研究的第一梯隊。
撲克與金融交易的共通點遠不只是比喻。兩者都涉及在不確定性與不完整資訊下的連續決策,獎勵信號清晰卻存在延遲。撲克的計分方式是每局贏輸的籌碼;交易的邏輯,如 Schmid 所說:「金融市場的好處是計分超級簡單:這個 Agent 賺了多少錢?」
這種獎勵信號的直接性,正是讓金融市場成為強化學習絕佳應用場域的原因。強化學習 Agent 無需標記資料,而是透過實際操作來學習:採取行動、觀察結果、更新策略。撲克研究證明了,透過自我對弈訓練的 RL Agent 能在複雜、對抗性的不完整資訊環境中超越人類直覺。金融市場正是這樣一個環境。
從撲克桌到交易席
EquiLibre 的演算法最初於 2025 年部署在加密貨幣市場——24 小時運作、流動性條件多樣、資料豐富,是絕佳的驗證場域。在加密市場建立的「零負報酬月份」紀錄,讓 Tower Research Capital 有信心將合作延伸至股票市場。
Tower Research Capital 是全球規模最大、最具實力的量化交易公司之一,在全球各交易所每日貢獻龐大的成交量。該公司願意在實盤交易中整合 EquiLibre 的 RL Agent,管理「每日數十億美元」的標普 500 與那斯達克交易量,本身就是一項重大的機構背書。Tower 不會拿真實資本在這種規模上嘗試未經驗證的技術。
EquiLibre 採用的具體策略未對外披露,這是量化交易的常規做法。公司的競爭優勢在於方法論本身——以金融獎勵信號驅動的自學習模型,將為撲克發展的不完整資訊博弈理論應用於價格發現這場永恆的對抗賽——而非任何單一交易或演算法。
強化學習進入金融業的商業邏輯
傳統量化交易高度依賴統計套利:根據歷史規律識別資產或時間維度上的定價偏差,並在偏差消失前加以利用。這類策略面臨 Alpha 衰減的挑戰:隨著越來越多資金追逐相同信號,優勢消耗加速,且需要隨市場微觀結構演變不斷重新校準。
強化學習提供了不同的範式。RL Agent 不是編碼人類識別的規律,而是透過與市場的交互自行發展出對市場動態的表徵。它能夠適應不斷變化的條件——市場體制轉換、新參與者入場、政策變化——這是靜態模型難以做到的。由於訓練方式基於自我對弈與實際交互而非單純歷史資料,也可能較少受到回測量化策略常見的過擬合問題影響。
撲克的比喻在競爭層面同樣成立。市場並非已解決的博弈;正如撲克,市場存在持續可利用的低效性,因為參與者有著有限的理性和各異的目標。一個能夠對交易對手行為建模、動態調整策略的 RL Agent,相對依賴固定規則的 Agent 具有結構性優勢。
5 億估值與 A 輪融資
EquiLibre 的融資歷程反映了一個對新型研究路線高度押注的投資軌跡。由 Blossom Capital 領投的 1000 萬美元種子輪(估值 1.4 億美元)為創辦人提供了驗證加密交易論點的跑道。由 Creandum 領投、被自述為「有史以來最大單筆投資」的 A 輪,代表信心評等的大幅升級。
一家 25 人、總部在布拉格的實驗室拿到 5 億美元估值,在傳統金融圈或許令人眨眼,但放在資產管理的機會規模下,邏輯不難理解。一個能在規模化下持續產生不相關正報酬的量化策略,其價值是技術成本的無數倍——因為底層商業模式是以管理費收取資本管理酬勞,而非賣軟體授權。
公司 25 名員工全數位於布拉格,透過來自 Google 等科技公司的捷克人脈網絡招募人才。相較倫敦或紐約,布拉格在學術資源和人力成本上的結構性優勢,在現階段為 EquiLibre 帶來了人才競爭力。
更大的趨勢背景
EquiLibre 站在兩股強大趨勢的交匯點:AI 研究人才加速流向高價值商業應用,以及強化學習從學術好奇心走向生產級技術的成熟轉型。
DeepMind 的人才外流——在 2025 至 2026 年間隨著 Alphabet 在 AI 領域的地位承壓而加速——催生了一代能力卓越的研究員投身新創與商業冒險。EquiLibre 是這次人才流動最具技術獨特性的成果之一:一支在 DeepMind 任職期間解決了標誌性不完整資訊問題的創始團隊,如今將其解法應用於世界上規模最大的不完整資訊博弈。
RL 交易策略隨著廣為人知後能否保持優勢,以及市場參與者適應後的反應,仍是核心未知數。撲克 AI 在自我對弈中最終趨於均衡,各方在納許均衡中不再有 Alpha 可圖。金融市場或許更複雜、邊界更模糊。若 EquiLibre 找到的是一種可持續的結構性方法而非暫時性的 Alpha,它正在建造的東西價值將遠超當前估值。若非如此,它將是量化策略生命週期以 AI 速度上演的最精密範例。
零負報酬紀錄終將接受考驗。更有趣的問題是:接受考驗時,它能撐多久。