普林斯頓大學和加州大學柏克萊分校的研究人員發表了一篇論文,介紹了他們稱之為「胡說八道指數」(或譯「胡扯指數」,Bullshit Index)的概念 — 一種量化和衡量人工智慧 (AI) 大型語言模型 (LLM) 對真相的漠視程度的指標[1]。

圖片來源:arXiv
該指數附帶一個分類法,分析了四種主要的胡說八道模式和形式:
- 空洞的言辭(empty rhetoric)
- 含糊其辭(paltering)
- 模棱兩可的措辭(weasel words)
- 未經證實的說法(unverified claims)
作者根據哲學家哈利・法蘭克福(Harry Frankfurt)所提出的概念來界定胡說八道:即不考慮其真實性而發表的言論[2]。
這篇論文 《Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models》於8月初發布,作者指出,基於人類回饋的強化學習(RLHF)使 AI助理更容易產生胡說八道,特別是增加了「模稜兩可地說真話」(paltering)等行為的發生。
在論文結論中還提到,作者發現提示策略(prompting strategies),例如「思維鏈」(Chain-of-Thought)與「委託代理框架」(Principal-Agent framing)會促使特定形式的「胡說八道」出現。在政治語境的評估結果則顯示,「模稜兩可的用詞」(weasel words)被廣泛使用。
綜合而言,這些研究結果凸顯了採取針對性策略以減少欺騙性語言、並提升 AI 系統可信度的重要性。
延伸閱讀:

發表留言