LLM 谎言：病态幻觉不是错误，而是对抗性示例的特征

Oct, 2023

LLM 谎言：病态幻觉不是错误，而是对抗性示例的特征

LLM Lies: Hallucinations are not Bugs, but Features as Adversarial Examples

Jia-Yu Yao, Kun-Peng Ning, Zhen-Hui Liu, Mu-Nan Ning, Li Yuan

TL;DR大型语言模型（LLMs）包括 GPT-3.5、LLaMA 和 PaLM 似乎具有丰富的知识并能够适应多种任务，但我们仍无法完全信任它们的答案，因为 LLMs 容易产生幻觉，即捏造不存在的事实来欺骗用户。本文通过证明无意义的随机标记可以引发 LLMs 产生幻觉来重新思考幻觉可能是对抗性示例的另一种视角，并且与常规对抗性示例具有相似特征作为 LLMs 的基础特征，因此我们提出了一种自动幻觉触发方法作为对抗性攻击，并探索了受攻击的对抗性提示的基本特征并提出了一种简单而有效的防御策略。我们的代码已在 GitHub 上发布。

Abstract

large language models (LLMs), including GPT-3.5, LLaMA, and PaLM, seem to be knowledgeable and able to adapt to many tasks. However, we still can not completely trust their answer, since LLMs suffer from hallucination

large language models hallucination adversarial examples hallucination attack defense strategy

发现论文，激发创造

通过可转移的对抗性攻击实现对齐大型语言模型的自动幻觉评估

大型语言模型 (LLM) 中的幻觉问题已取得显著进展，但如何评估 LLMs 的可靠性仍然具有挑战性。本文通过生成评估数据的方法对现有数据进行适当修改，以使用 AutoDebug 框架生成可转移的对抗攻击示例，并研究这些示例触发 LLMs 幻觉行为的程度。实验结果表明，LLMs 在两类问答场景中易产生幻觉，并且我们的方法生成的对抗示例在所有考虑到的 LLMs 之间可转移。

Oct, 2023

消除 LLM 幻觉需要重新思考泛化

通过广泛系统实验，我们展示了传统方法无法解释 LLMs 在实践中为什么会产生幻觉，并通过大量内存专家的混合来增强 LLMs，可以轻松地记忆大数据集，为去除幻觉设计了 Lamini-1 模型。

Jun, 2024

大规模法律虚构：对大型语言模型中的法律幻觉进行剖析

律师常见的经验法则错误假设对大型语言模型的查询及其常见的法律幻觉有极高百分比的影响，通过比较与结构化法律元数据的调查结果，并研究法律规定的一系列查询结果，我们开发了一种法律幻觉的分类方法，并提醒了不应迅速自主将流行的大型语言模型整合到法定任务中。

Jan, 2024

推理任务中大型语言模型产生幻觉的来源

该论文通过对多个大型语言模型的行为研究发现，训练数据的记忆和频率偏好是导致生成式大型语言模型产生幻觉的两个主要因素，这些模型在自然语言推断等应用任务中表现出明显的问题。

May, 2023

分类和减轻 LLMs 的幻觉的洞察力

本文阐述了人工智能幻觉的根本原因及其在人工智能中的重要意义，并就幻觉分类进行了研究，包括机器翻译、问答系统、对话系统、摘要系统、基于大语言模型的知识图谱以及视觉问答等多个任务。同时，本研究探讨了缓解幻觉的潜在策略，旨在提高大语言模型的整体可靠性。该研究属于 HeReFaNMi（Health-Related Fake News Mitigation）项目的一部分，该项目得到 NGI Search 的慷慨支持，旨在抑制互联网上健康相关虚假新闻的传播，致力于在不断演进的人工智能技术时代保护信息传播的完整性。

Nov, 2023

寻求真相：一种审问方法用于幻觉检测

通过多个数据集和大型语言模型，包括 Llama-2，对该模型的幻觉水平进行广泛评估，并展示了我们的方法在自动检测幻觉方面的有效性，达到了 87% 的平衡准确率，而无需依赖外部知识。

Mar, 2024

幻觉检测与幻觉减缓：一项研究

大型语言模型（如 ChatGPT、Bard 和 Llama）在不同领域的应用中取得了显著的成功。然而，虚假生成是限制其广泛应用的关键问题。本报告意在综述虚假生成检测和虚假生成减轻的现有文献，旨在为对大型语言模型和将其应用于实际任务感兴趣的工程师和研究人员提供参考。

Jan, 2024

大型语言模型中的幻觉调查：原则、分类、挑战与开放问题

在这份调查中，我们旨在对大型语言模型（LLM）幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手，然后深入探讨了导致幻像的因素。接下来，我们全面介绍了幻像检测方法和基准。此外，我们还相应介绍了用于减轻幻像的代表性方法。最后，我们分析了突出当前限制的挑战，并制定了未来 LLM 幻像研究的开放问题，旨在描绘发展方向。

Nov, 2023

在 LLMs 中重新定义 “幻觉”：朝着心理学指导的框架缓解错误信息

通过基于认知偏见和其他心理现象的心理分类学，我们质疑将 “幻觉” 一词应用于大型语言模型，并利用人类内部解决类似挑战的见解来开发缓解 LLMs 幻觉的策略，为提高 LLM 的可靠性提供细致精确的理解和可操作的途径。

Feb, 2024

语言模型产生幻觉但在事实验证中可能表现出色

自然语言处理和大型语言模型在近期取得了显著进展，然而，大型语言模型常常会出现 “幻觉”，导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题，显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性，以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器，与人类判断具有强相关性，至少在维基百科领域。令人惊讶的是，在我们的研究中，最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器，甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。

Oct, 2023