Oct, 2023

LLM 谎言:病态幻觉不是错误,而是对抗性示例的特征

TL;DR大型语言模型(LLMs)包括 GPT-3.5、LLaMA 和 PaLM 似乎具有丰富的知识并能够适应多种任务,但我们仍无法完全信任它们的答案,因为 LLMs 容易产生幻觉,即捏造不存在的事实来欺骗用户。本文通过证明无意义的随机标记可以引发 LLMs 产生幻觉来重新思考幻觉可能是对抗性示例的另一种视角,并且与常规对抗性示例具有相似特征作为 LLMs 的基础特征,因此我们提出了一种自动幻觉触发方法作为对抗性攻击,并探索了受攻击的对抗性提示的基本特征并提出了一种简单而有效的防御策略。我们的代码已在 GitHub 上发布。