人工智慧「胡說八道指數」

普林斯頓大學和加州大學柏克萊分校的研究人員發表了一篇論文,介紹了他們稱之為「胡說八道指數」(或譯「胡扯指數」,Bullshit Index)的概念 — 一種量化和衡量人工智慧 (AI) 大型語言模型 (LLM) 對真相的漠視程度的指標[1]

Bullshit Index
圖片來源:arXiv

該指數附帶一個分類法,分析了四種主要的胡說八道模式和形式:

  1. 空洞的言辭(empty rhetoric)
  2. 含糊其辭(paltering)
  3. 模棱兩可的措辭(weasel words)
  4. 未經證實的說法(unverified claims)

作者根據哲學家哈利・法蘭克福(Harry Frankfurt)所提出的概念來界定胡說八道:即不考慮其真實性而發表的言論[2]

這篇論文 《Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models》於8月初發布,作者指出,基於人類回饋的強化學習(RLHF)使 AI助理更容易產生胡說八道,特別是增加了「模稜兩可地說真話」(paltering)等行為的發生。

在論文結論中還提到,作者發現提示策略(prompting strategies),例如「思維鏈」(Chain-of-Thought)與「委託代理框架」(Principal-Agent framing)會促使特定形式的「胡說八道」出現。在政治語境的評估結果則顯示,「模稜兩可的用詞」(weasel words)被廣泛使用。

綜合而言,這些研究結果凸顯了採取針對性策略以減少欺騙性語言、並提升 AI 系統可信度的重要性。

延伸閱讀:

  1. arXiv — Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models
  2. MediaPost — The AI Bullsh**t Index And The Psychology Behind It
  3. MIT科技评论 — 大模型为何漠视真相?普林斯顿学者揭示大模型“胡扯”的本质

發表留言

在WordPress.com寫部落格.

向上 ↑