當大家習慣使用類似 ChatGPT 的生成式 AI 來協作產出內容時,有沒有想過這些內容是怎麼來的? 這些大型語言模型訓練的資料來源是否包括了未經作者授權的內容?
下面是EDUCAUSE 一段5分鐘的影片,說明使用生成式AI 時會出現三個關鍵的著作權問題。影片討論了AI 訓練資料的收集所帶來的法律和倫理複雜性、生成式AI 輸出可能侵犯現有作品的風險,以及為AI創作內容取得著作權保護的挑戰。
最近 The Conversation 有一則有關生成式AI 訓練資料來源的取得問題的報導,下面摘錄部分內容[1]:
Informa 在五月宣布微軟簽署了一項涉及 “獲取先進學習內容和數據,並探索AI專家應用” 的合作協議。Informa 是 Taylor & Francis 的母公司,該公司出版各類學術和技術書籍及期刊,因此涉及的數據可能包括這些書籍和期刊的內容。
根據The Bookseller 的報導,內容的作者似乎沒有被詢問或甚至被告知有這項協議。更甚的是,他們表示沒有機會選擇退出這項協議,並且不會從中獲得任何收益[2]。
學術界只是最近一批對其作品被當前迅速吸納人類文化產物的生成式AI模 型收集感到不滿的創作者群體之一。報紙、視覺藝術家和唱片公司已經開始將AI 公司告上法庭。
The Conversation 報導中提到 Informa 將獲得超過 800 萬英鎊的費用,微軟將在未來三年內定期支付金額不詳的費用。依據 Informa 的公告,此次交易將聚焦在下面四個領域:
- increasing Informa’s own productivity 提高 Informa 自身的生產力
- developing an automated citation tool 開發自動引用工具
- developing AI-powered research assistant software (perhaps like a system being tested by online academic library JSTOR) 開發人工智慧驅動的研究助理軟體
- giving Microsoft data access to “help improve relevance and performance of AI systems”. 為微軟提供資料存取「幫助提高人工智慧系統的相關性和效能」
報導中進一步探討到
- 出版時作者所簽置的出版協議、文章處理費…等議題,提醒作者注意所簽署的出版協議的合約條款。
- 許多生成式AI公司目前正面臨因使用訓練數據而引發的著作權侵權訴訟,他們的辯護很可能會依賴於主張合理使用。
在 The Bookseller 的報導中除了反應更多學術界的反應,包括作者協會 (SoA) 敦促那些 “發現自己的作品在未經同意的情況下被使用” 的作者聯繫他們以獲取指導,並鼓勵作者參加由 ALCS (Authors’ Licensing and Collecting Society) 目前進行的關於作者集體許可選項的調查。
詳細的內容請參閱文末連結。
延伸閱讀:

發表留言