本文摘要一篇由美國華盛頓州立大學(Washington State University)Blake L. Galbreath 等四位圖書館員發表的研究論文。該研究旨在評估一款名為「Primo Research Assistant (PRA)」的人工智慧搜尋工具,並將其與圖書館現行的傳統搜尋系統(Primo VE, PVE)進行比較。這項評估的核心,在於探討PRA如何處理那些在傳統系統中搜尋失敗的自然語言問題,也就是為過去「找不到任何結果」的使用者提供解答的可能性。
Primo Research Assistant (PRA) 是什麼?
Primo Research Assistant (PRA) 是一款採用「檢索增強生成」(Retrieval-Augmented Generation, RAG)架構的工具,其背後結合了大型語言模型(OpenAI GPT 3.5)。RAG模型的主要優勢在於,它依賴外部知識庫來擷取資訊,這有助於「錨定」語言模型生成的答案,從而減少產生「幻覺」(hallucinations)的機率。
PRA 處理使用者自然語言查詢的運作流程可簡化為以下五個步驟:
- 語言模型會將使用者的問題轉換為十種不同的搜尋字串,外加原始查詢本身。
- 使用這些字串在圖書館的 Central Discovery Index (CDI) 中進行搜尋,找出最匹配的前30筆記錄。
- 從這30筆記錄中,再次分析並挑選出與原始問題最相關的5筆文獻。
- 將使用者的原始問題和這5筆最相關的文獻結果發送給語言模型。
- 語言模型最終生成一段帶有引用來源的摘要式概述,作為對問題的回應。
研究方法:如何比較兩種搜尋系統?
研究人員採用了系統性的方法來比較 PRA 與傳統搜尋系統 PVE 的表現。測試流程的要點如下:
- 測試樣本: 研究團隊從圖書館系統後台收集了103個真實使用者輸入後「找不到任何結果」的自然語言問題。這些查詢之所以失敗,關鍵在於它們是以自然語言語法寫成,而傳統系統PVE不擅長處理這類語法。這項設計旨在測試PRA的核心強項,以應對傳統系統的弱點。
- AI組: 將這103個問題直接輸入 PRA 系統,並記錄其回傳的5筆文獻與摘要內容。
- 專家組: 由專業圖書館員將同樣的103個問題,手動改寫成專家級的布林邏輯 (Boolean logic,例如使用 AND, OR, NOT 等運算子的精確搜尋) 搜尋式,然後在傳統系統 PVE 中進行搜尋,並記錄回傳的前10筆結果。
- 評估方式: 最後,由圖書館員組成的評分小組,根據「是」(完全相關)、「或許是」(可能相關)、「否」(不相關)的標準,對兩個系統回傳的所有文獻逐一進行相關性評分。
核心發現(一):AI與傳統搜尋的「相關性」不分軒輊
研究發現兩種搜尋方式找到的文獻重疊性極低。在AI搜尋找到的文獻中,僅有 7.21% 與專家搜尋的結果相符。
然而,本研究最重要的發現是:在「主題相關性」方面,兩個系統的表現幾乎沒有差異。 評分小組將文獻評定為「是」(完全相關)的百分比如下:
- PRA (AI搜尋): 46.3%
- PVE (專家搜尋): 45.6%
研究人員解釋了這個「低重疊、高相關」看似矛盾的現象:對於某些擁有大量相關文獻的廣泛主題,兩種系統雖然各自找到了不同的文獻集,但這兩組結果可能同樣有效且相關。因此,研究團隊認為,單就結果的相關性而言,PRA 這款測試中的產品既沒有帶來明顯的進步,也沒有出現退步。
核心發現(二):AI生成的「摘要」是雙面刃
研究人員也深入分析了 PRA 產生的概述摘要(overview summary)的實用性,發現其價值完全取決於引用文獻的品質。摘要的品質與其引用的來源是否相關有著直接的因果關係:
- 優點: 當 PRA 引用到的5篇文獻都與主題相關時,摘要能有效地幫助使用者將各篇文獻的內容脈絡化,理解它們之間的關聯。摘要有時也會展現出一定的克制,例如在一份摘要中,它會承認引用的文獻與主題的關聯「仍不清楚」,建議需要「進一步研究」。
- 缺點: 當引用的文獻與主題不相關時,摘要的實用性不僅會消失,甚至會變得有害。它會試圖將這些不相關的文獻「硬塞進去」(shoehorning),強行與使用者的問題建立關聯,甚至刻意引用使用者問題中的詞彙來建立一種虛假的連結感。這構成了誤導使用者的重大風險,可能讓他們誤以為不相關的文獻是有用的。
結論
總體而言,這項研究揭示了在圖書館導入AI搜尋工具的核心權衡:
- 降低門檻: PRA 成功地處理了使用者在傳統系統中搜尋失敗的自然語言問題。這為不熟悉複雜布林邏輯的使用者提供了一種有效的替代方案,讓那些原本一無所獲的查詢也能得到回應。
- 新增風險: 儘管 PRA 的整體相關性表現與現有系統相當,但它帶來了兩個主要風險。第一,結果極不穩定(非確定性 non-determinism),重複相同的查詢,回傳的五筆結果「幾乎總是完全或近乎完全不同」,這對研究的可再現性構成挑戰。第二,其AI摘要在引用不相關文獻時存在嚴重的誤導風險。
- 決策中立: 目前的證據尚不足以顯示應偏好哪一種搜尋工具。
資料來源
Galbreath, B. L., England, E., Johnson, C. M., & Saulnier Lange, J. (2025). AI-Infused Discovery Environments: Information Retrieval Boon or Overpromised Hype?. Information Technology and Libraries.
本文為使用 NotebookLM 對期刊論文進行重點摘要之 AI 生成內容。
延伸閱讀:
- Library Views圖書館觀點 — 科睿唯安推出AI研究助理服務
- Library Views圖書館觀點 — RAG是什麼?


發表留言