版權商準備和微軟、谷歌、OpenAI 打官司！訓練 AI 模型，也得付錢？

“我們的內容有價值，是真正的人類辛苦勞動的成果，卻不斷被用來為其他人創造收入，我們必須得到補償。”

AI 聊天機器人憑藉其出色的能力，成為環球市場的焦點，讓互聯網公司之間掀起了新一輪 “軍備競賽”。

但是，用於訓練人工智能的數據，如新聞、書籍等，許多都是有版權歸屬的，AI 公司該為使用這些內容付費嗎？

據媒體報道，近期，出版行業的高管，已經開始審查他們的內容在多大程度上被用於 “訓練” ChatGPT 等 AI 聊天機器人，他們應該如何獲得補償，以及他們有哪些法律選擇。

新聞媒體聯盟 (News Media Alliance) 執行副總裁兼總法律顧問 Danielle Coffey 表示：

“我們的內容有價值，是真正的人類辛苦勞動的成果，卻不斷被用來為其他人創造收入，我們必須得到補償。”

據知情人士向媒體透露，美國內容社區 Reddit 已經與微軟就其內容在 AI 訓練中的使用進行了商議。

此外，擁有《華爾街日報》、《紐約郵報》、《巴倫週刊》等媒體的美國新聞集團正準備採取行動。

首席執行官 Robert Thomson 在最近的一次投資者會議上表示，他已經 “開始與某一方進行討論。”

Robert Thomson 認為：

“很明顯，他們在使用獨家內容——顯然，我們應該因此得到一些補償。”

除了出版商，圖片作品的版權方也在向 AIGC 公司討要授權費。今年 2 月，在線圖庫 Getty Images 已起訴 AIGC 領域獨角獸 Stability AI，稱其侵犯了 Getty Images 的版權。

AI 公司是否有權從互聯網上抓取內容，並把這些數據輸入他們的訓練模型，是一項模糊不明的法律問題。

在中國、美國、日本、歐盟等地的法律中，均有 “合理使用” 條款，允許個人、公司在某些情況下未經許可使用受版權保護的材料。

許多 AI 公司也援引這一條款為自己申辯，但出版商則認為，大量使用受版權保護的內容訓練 AI，是對這一特許權利的濫用。

並且，人工智能工具可能會讓他們的網站上損失流量和廣告收入。在搜索引擎時代，用户還需要點進網頁找資料，但現在，大部分時候，搭載 GPT-4 引擎的 Bing 都能直接幫你生成答案，幾乎不需要再查閲網頁。

此前，OpenAI 首席執行官 Sam Altman 在談到版權問題時表示，ChatGPT 是根據兩年前的數據進行訓練的。他還表示，OpenAI 也在積極和內容公司合作，獲得授權，表示公司願意為特定領域的高質量數據支付高價。

比如，去年，OpenAI 與在線圖庫 Shutterstock 達成了協議，Shutterstock 給 OpenAI 提供數據，OpenAI 技術給 Shutterstock 提供技術。與此同時，Shutterstock 還設立了一個基金，那些作品被用於 AI 訓練的藝術家提供補償。

現在的問題是，AI 工具仍處於進入商業應用的早期，如果真的要讓 AI 公司為大規模複製作品支付許可費用，在實踐中也很難完成。對版權問題，整個行業還沒有形成固定的準則。

我們此前提到，涉及軟件公司 Adobe 是解決 AI 版權問題的先行者。它在最近推出新工具"Firefly" (螢火蟲) ，致力於讓 AI 生成作品安全地商用，同時給讓藝術家自主選擇，要不要把作品交給 AI 訓練。Adobe 希望能塑造行業的新標準，但這一切，都需要時間。