AI 版權上法庭:將定義下個十年科技發展的判決
三個里程碑案件正在美國法院審理中。結果將決定 AI 公司是否欠下數十億授權費,還是用公開資料訓練仍屬合理使用。
一千億美元的問題
用有版權的資料訓練 AI 模型是「合理使用」還是侵權?這個問題的答案價值在 0 到 1000 億美元之間,取決於哪一邊贏。
三個正在美國法院審理的案件將建立先例:
紐約時報 vs OpenAI:紐約時報主張 OpenAI 的模型能幾乎逐字重現 Times 的文章,證明它記住了有版權的內容。OpenAI 辯稱訓練是轉化性合理使用 — 模型創造新東西,不是複製。
Getty vs Stability AI:Getty Images 聲稱 Stable Diffusion 未經許可就用 Getty 數百萬張有版權的圖片訓練。Stability AI 辯稱從圖片學習就像人類藝術家研究藝術 — 是觀察,不是複製。
作家公會 vs Meta:數千位作家的集體訴訟,聲稱 Llama 用盜版書籍訓練。Meta 的辯護:訓練資料的問題跟模型輸出的問題是分開的。
為什麼這不是非黑即白
老實說,版權法不是為這種情況設計的。現有框架必須回答它從來不打算處理的問題:
模型算是「複製品」嗎? 當模型用一本書訓練時,它不會儲存那本書。它根據文字中的統計模式調整數十億個數值權重。那算複製嗎?法律上,沒人知道。
訓練算「轉化性」嗎? 合理使用保護轉化性作品 — 創造新意義或目的的東西。一個從有版權資料學到的模式中生成完全原創文字的模型,可以說是版權史上最具轉化性的東西。或者它是有史以來最精密的抄襲引擎。
誰是侵權者? 如果使用者叫 ChatGPT「寫一段 Stephen King 風格的東西」而它產出了可疑地相似的內容,是 OpenAI 的責任?還是使用者?還是都不是?
可能的結果
情境 A:訓練是合理使用 — AI 公司贏。不用付授權費。現有模式(用所有東西訓練,事後再求原諒)繼續。內容創作者什麼都拿不到,除非能證明輸出中有直接的逐字複製。
情境 B:訓練需要授權 — 內容擁有者贏。每家 AI 公司都需要跟出版商、圖庫和唱片公司談授權協議。成本大幅增加。小型 AI 公司負擔不起競爭。大玩家鎖定獨家資料協議。
情境 C:強制授權(最可能的結果)— 法院或國會建立標準化授權框架。AI 公司按 token 付費到集體基金,類似電台付費給 ASCAP/BMI。沒有人完全滿意,但系統運作得起來。
沒人在講的事
版權辯論的諷刺是,它可能在 18 個月內就不重要了。合成資料進步得太快,未來的模型可能根本不需要人類創作的訓練資料。如果 AI 模型能生成自己的訓練資料,版權問題就變得無關緊要。
但目前的模型 — 現在正在賺數十億營收的那些 — 全都是用有版權的資料訓練的。追溯性責任才是讓 AI 公司律師睡不著的東西。
觀察重點
- 紐約時報 vs OpenAI 的判決(預計 2026 年底)— 這將建立最強的先例
- 國會對 AI 版權的立法行動 — 有幾個法案在委員會中
- AI 公司會不會主動提出授權協議來搶在法院判決之前
- 歐盟的做法(預設更嚴格 — AI 法案要求訓練資料透明度)
版權法即將迎來它的 Napster 時刻。問題不是音樂是不是免費的 — 而是有沒有人能在不付音樂家錢的情況下靠它做生意。