惹眾怒！數千名作家發聲：生成式 AI 也得付版權費

最新AI资讯1年前 (2023)发布 Aibot114

2,593 0 127

基於大語言模型的生成式 AI 繼續「惹眾怒」。

近日8,500多名小說、非小說和詩歌作者聯合簽署致生成式AI領導者的公開信，呼籲OpenAI、Alphabet、Meta、Stability AI、IBM和微軟執行長就在訓練AI時若用到受版權保護的材料，需向作者徵取同意、認可並給予公平酬勞。

信中寫道：「基於大型語言模型的生成式AI技術歸功於我們的著作。這些技術模仿並反省我們的語言、故事、風格和想法。」這說法可能有點偏頗，但細究生成式AI的原理後，倒也不無道理。

生成式AI原理就是利用機器學習模型，學習人工創建的資料庫模式和關係，然後再利用學習模式產生新內容。預訓練資料庫就等於「石油」。以最紅的ChatGPT為例，公開數據顯示ChatGPT訓練量為8千億個單字語言庫，含1,750億個參數，預訓練量達45TB。但ChatGPT如此龐大的資料庫來源卻始終「布滿迷霧」。

OpenAI官方表示，鑑於GPT-4等大規模模型的競爭狀況和安全影響，不再披露資料來源，並含糊其詞表示就是網路、社群媒體、新聞、書籍等。

2020年介紹ChatGPT-3的論文，尚未出名的OpenAI坦言，訓練量15%來自「兩個基於網路的書籍語料庫」。儘管OpenAI並沒有透露資料庫是什麼作品，但有不少爆料者聲稱正是來自侵犯版權免費提供大量電子書的「影子圖書館」。

2月OpenAI遭許多媒體指責，批評未經授權擅自使用其新聞訓練。《華爾街日報》記者問ChatGPT索取訓練新聞來源清單時，回覆列出20家媒體，包括未獲授權的《華爾街日報》，同樣「常在河邊走」的其他生成式AI是否真能「不濕腳」？

種種一切，很難不讓作家對自己版權是否受損充滿疑慮。

AI讓作家陷入困境

公開信談到，過去十年作家收入下降40%，全職作家到2022年收入中位數僅23,000美元，AI入侵可能導致作家境況更困難。呼籲者請求，要求生成式AI領頭者做到以下三點：

取得生成式AI程序使用受版權保護材料的許可。公平補償過去和現在生成式AI程式使用到作品的作者。公平補償AI輸出使用到作品的作者，無論輸出是否違反現行法律。

現在壓力轉移到生成式AI領頭者了。

許多生成式AI領頭者公開場合都對版權保護做過「口頭」承諾。5月美國國會聽證會，OpenAI CEO阿特曼就強調內容創作者將受益於AI工具，並掌握作品所有權和控制權，之後阿特曼更化身「傳教士」巡迴世界，為生成式AI助威。

現世報「打臉」太快，層出不窮的隱私洩漏訴訟、版權侵犯事件，將這封呼籲信徹底擺上檯面，成了離不開的「催命符」。