Microsoft collaborates with News Corp-B's HarperCollins to train AI models using massive book data

微軟與新聞集團-B 旗下的哈珀柯林斯達成協議，利用其豐富的非小説類圖書資源訓練人工智能模型。該合作僅限於精選舊書，不涉及新書創作，作者可選擇參與。哈珀柯林斯確認協議，強調尊重作者權利，確保作品價值和收入保護。此舉旨在提升模型質量和準確性，科技公司普遍尋求高質量文本來源以優化 AI 訓練。

智通財經 APP 獲悉，據知情人士透露，微軟公司 (MSFT.US) 與新聞集團-B(NWS.US) 旗下的哈珀柯林斯出版公司達成協議，計劃利用後者豐富的非小説類圖書資源來訓練其人工智能模型，以提升模型的質量和性能。這一合作僅限於使用精選的舊書進行模型訓練，並不涉及創作新書，且作者有權選擇是否參與。

具體而言，微軟希望將哈珀柯林斯圖書納入其尚未公佈的人工智能模型中，以拓展高質量文本來源，提高模型的準確性和專業知識提供能力。儘管微軟拒絕置評，但哈珀柯林斯已證實了這一協議，並表示該協議將 “允許有限使用精選的非小説類舊書來訓練人工智能模型”。

同時，哈珀柯林斯強調，這一協議的範圍有限，對尊重作者權利的模範產出有明確的限制，作者可以選擇是否參與。

“我們的任務之一是為作者們創造機遇，讓他們深思熟慮，同時確保他們作品的核心價值以及我們共同享有的收入和版税得到保護，” 哈珀柯林斯表示。“這份協議範圍有限，對那些尊重作者權益的傑出作品設定了明確的界限，它成功地實現了這一目標。”

據瞭解，科技公司一直在尋找更多高質量文本來源來訓練人工智能模型，微軟等公司也不例外。他們通過獲得許可，使用從社交媒體網站到新聞文章的一系列數據，以使他們的程序更準確、更好地回答問題或提供特定主題的專業知識。

值得一提的是，新聞集團此前已與 OpenAI 簽署協議，允許其使用旗下多家出版物的內容。微軟也與多家出版商合作開展人工智能項目。

此外，今年早些時候，谷歌與 Reddit 達成了一項價值 6000 萬美元的協議，使得這家搜索巨頭能夠利用大量的 subreddits 來訓練其 AI 模型。

然而，一些出版商對人工智能公司未經許可引用內容的行為表示不滿，並提起訴訟。例如，《紐約時報》起訴了 OpenAI 和微軟，指控其侵犯版權。

綜上所述，微軟與哈珀柯林斯達成的協議標誌着科技公司在尋求高質量文本來源以訓練人工智能模型方面的又一重要進展。然而，如何在利用這些資源的同時尊重作者權利，仍是出版商和科技公司需要共同面對的挑戰。