AI 版權上法庭：將定義下個十年科技發展的判決

三個里程碑案件正在美國法院審理中。結果將決定 AI 公司是否欠下數十億授權費，還是用公開資料訓練仍屬合理使用。

2026年4月4日 1 分鐘閱讀

一千億美元的問題

用有版權的資料訓練 AI 模型是「合理使用」還是侵權？這個問題的答案價值在 0 到 1000 億美元之間，取決於哪一邊贏。

三個正在美國法院審理的案件將建立先例：

紐約時報 vs OpenAI：紐約時報主張 OpenAI 的模型能幾乎逐字重現 Times 的文章，證明它記住了有版權的內容。OpenAI 辯稱訓練是轉化性合理使用 — 模型創造新東西，不是複製。

Getty vs Stability AI：Getty Images 聲稱 Stable Diffusion 未經許可就用 Getty 數百萬張有版權的圖片訓練。Stability AI 辯稱從圖片學習就像人類藝術家研究藝術 — 是觀察，不是複製。

作家公會 vs Meta：數千位作家的集體訴訟，聲稱 Llama 用盜版書籍訓練。Meta 的辯護：訓練資料的問題跟模型輸出的問題是分開的。

老實說，版權法不是為這種情況設計的。現有框架必須回答它從來不打算處理的問題：

模型算是「複製品」嗎？ 當模型用一本書訓練時，它不會儲存那本書。它根據文字中的統計模式調整數十億個數值權重。那算複製嗎？法律上，沒人知道。

訓練算「轉化性」嗎？ 合理使用保護轉化性作品 — 創造新意義或目的的東西。一個從有版權資料學到的模式中生成完全原創文字的模型，可以說是版權史上最具轉化性的東西。或者它是有史以來最精密的抄襲引擎。

誰是侵權者？ 如果使用者叫 ChatGPT「寫一段 Stephen King 風格的東西」而它產出了可疑地相似的內容，是 OpenAI 的責任？還是使用者？還是都不是？

情境 A：訓練是合理使用 — AI 公司贏。不用付授權費。現有模式（用所有東西訓練，事後再求原諒）繼續。內容創作者什麼都拿不到，除非能證明輸出中有直接的逐字複製。

情境 B：訓練需要授權 — 內容擁有者贏。每家 AI 公司都需要跟出版商、圖庫和唱片公司談授權協議。成本大幅增加。小型 AI 公司負擔不起競爭。大玩家鎖定獨家資料協議。

情境 C：強制授權（最可能的結果）— 法院或國會建立標準化授權框架。AI 公司按 token 付費到集體基金，類似電台付費給 ASCAP/BMI。沒有人完全滿意，但系統運作得起來。

版權辯論的諷刺是，它可能在 18 個月內就不重要了。合成資料進步得太快，未來的模型可能根本不需要人類創作的訓練資料。如果 AI 模型能生成自己的訓練資料，版權問題就變得無關緊要。

但目前的模型 — 現在正在賺數十億營收的那些 — 全都是用有版權的資料訓練的。追溯性責任才是讓 AI 公司律師睡不著的東西。

版權法即將迎來它的 Napster 時刻。問題不是音樂是不是免費的 — 而是有沒有人能在不付音樂家錢的情況下靠它做生意。