跳至主要內容
FAQ

合成資料正在吃掉真實資料:沒人在談的訓練資料危機

AI 實驗室快用完高品質的人類生成訓練資料了。解方 — 用 AI 生成的資料來訓練 — 效果出奇地好,但產生了沒人完全理解的風險。

1 分鐘閱讀

網際網路不夠大

一個應該讓你不舒服的事實:各大 AI 實驗室基本上已經耗盡了高品質、公開可用的訓練資料。

估計 GPT-4 和 Claude 3 大約是用 10-15 兆個 token 的文字訓練的 — 經過品質過濾的公開網際網路的大部分。GPT-5 和後續模型需要更多資料,但已經沒有更多品質資料可以找了。網路在成長,但主要是 AI 生成的內容、SEO 垃圾和低品質文字。

AI 產業的回應:製造更多資料。具體來說,用 AI 來為 AI 生成訓練資料。

合成資料怎麼運作

合成資料不只是「把 AI 輸出餵回 AI」。技術更精密:

自我對弈和自我改進:模型生成解答,驗證器檢查它們,正確的解答成為訓練資料。這在數學、程式設計和邏輯推理上效果非常好 — 答案可以客觀驗證的任務。

蒸餾:大型、昂貴的模型生成高品質輸出,用來訓練更小、更便宜的模型。這是大部分「開源」模型的建造方式 — 它們部分是用 GPT-4 或 Claude 的輸出訓練的。

Constitutional AI 和 RLHF:Anthropic 的方法用 AI 來評估和改善自己的輸出,為對齊訓練創造合成偏好資料。

領域模擬:對特定應用(醫療診斷、金融建模、自動駕駛),合成資料可以涵蓋真實資料中很少出現但必須正確處理的情境。

結果出奇地好

過去一年的研究顯示,精心策展的合成資料在特定任務上可以匹配或超越人類生成的資料品質:

  • 用合成數學資料訓練的模型解題準確率比只用人類資料訓練的高 15-20%
  • 用合成除錯場景訓練的程式碼模型展現比只用 GitHub 程式碼訓練的更好的錯誤處理
  • 當合成資料填補了代表性不足語言的缺口時,多語言模型顯著改善

關鍵字是「精心策展」。原始的合成資料是垃圾。經過過濾、驗證和策略性生成的合成資料是黃金。

沒人完全理解的風險

模型崩潰:當 AI 在 AI 生成的資料上訓練多個世代後,品質會下降。把它想成影印的影印 — 每一代都失去保真度。現有技術能緩解這個問題,但經過多次訓練循環的長期效果是未知的。

單一文化:如果每個模型都用少數幾個基礎模型生成的資料訓練,我們會得到 AI 觀點的單一文化。多元的訓練資料產生多元的能力。來自單一來源的合成資料產生收斂的偏差。

評估污染:你怎麼測試一個用建立跑分的模型生成的合成資料訓練的模型?評估框架本身都變得不可靠。

歸屬問題:如果模型 B 是用模型 A 的合成資料訓練的,而模型 A 是用有版權的人類資料訓練的,誰欠誰?法律影響還沒被探索。

沒人在講的事

最有趣的發展是,合成資料的問題可能讓版權辯論變得無關緊要。如果未來的模型可以完全用合成資料加上少量授權的人類資料來訓練,圍繞在有版權內容上訓練的法律壓力就會蒸發。

這創造了一個反常的激勵:AI 實驗室有動機解決合成資料問題不只是為了品質,也是為了逃脫版權責任。技術動機和法律動機完美對齊。

觀察重點

  • GPT-5 或 Claude 5 是否主要使用合成訓練資料(兩家公司都不會說,但答案很重要)
  • 模型崩潰研究 — 我們是否正在接近合成資料遞迴的極限?
  • 在驗證困難的領域(創意寫作、主觀任務)生成高品質合成資料的新技術
  • 監管回應 — 應該要有合成資料揭露的規定嗎?

諷刺很有詩意:AI 從人類的集體產出學習,現在它從自己的產出學習。這是良性循環還是鏡中迷宮,取決於我們現在正在做的選擇 — 而大部分選擇都是在閉門中做出的。

synthetic-data training-data ai-safety llm
分享

相關報導