人工智慧(AI)模型蒐集資料的爬蟲機器人被設計用來造訪網站並擷取資料,以提供像是 ChatGPT、Gemini 和 Claude 等大型語言模型 AI 使用。圖書館、文化遺產機構,以及開源與開放資料網站,由於通常提供經過審核的高品質資訊與良好的中繼資料(metadata),且往往不需要註冊或登入,成為這些爬蟲機器人的主要目標。過去幾個月來,這些爬蟲機器人已成為網際網路上的一大問題,對圖書館、文化遺產網站以及其他對這些機構重要的內容造成影響。

原圖來源:Medium
本文開頭是 Library Journal 最近一篇報導的內容,相信國內也有圖書館碰到相同的問題。下面簡單摘錄此篇報導其他重點,更多、更詳細內容請參見文末連結。
- 今年6月發表的一份報告 Are AI Bots Knocking Cultural Heritage Offline? 指出:2024 年底一些線上文化遺產典藏網站回報伺服器與資料庫在大量爬蟲機器人湧入時承受著極大的負荷,有時甚至癱瘓。這些爬蟲機器人正將典藏網站上的所有資料擷取下來,用於建立 AI 訓練資料集。
- ByWater Solutions 的共同創辦人兼首席營運長 Nathan Curulla 在接受 Library Journal 訪問時表示:只要是任何不需要登入就能存取的網站,現在幾乎都被爬蟲機器人猛攻。面對近期突增的爬蟲機器人流量,他們正積極為旗下所有 Koha ILS 與 Aspen Discovery 的客戶部署 Cloudflare 服務以因應。
- 這些爬蟲機器人還會進行進階篩選查詢(faceted searches),篩選條件從出版日期、出版地點、語言,甚至到特定校區圖書館的館藏位置都有。而且篩選條件會多達 25個,有別於一般人頂多會套用五、六個篩選條件。
- 網際網路檔案館(Internet Archive)目前已無法再透過 Wayback Machine 保存學術圖書館界最優秀的開放取用出版機構之一 — MIT 出版社(MIT Press)的網頁快照,原因是遭到 Cloudflare 的阻擋。
- Unglue.it 電子書計畫的創辦人 Eric Hellman 在其部落格上指出,如果這個日益嚴重的問題無法解決,將迫使所有提供優質資訊的網站都轉向註冊機制與付費牆後面,最終只有先進的人工智慧才能通過驗證碼,只有富人才能使用網路圖書館。
新聞來源:
Library Journal — AI Bots Swarm Library, Cultural Heritage Sites, Causing Slowdowns and Crashes

發表留言