LLM 对幻觉是否有了解?LLM 隐藏状态的实证研究
当生成虚幻答案时,大型语言模型表达问题是否无法回答的事实,结果表明,LLMs 的潜在表示中存在空间组织机制,揭示了这些模型以前未被探索的方面。同时,为了更好地遵守事实生成,特别是在问题无法回答的情况下,这些发现为改进解码技术的发展铺平了道路。
Oct, 2023
通过多个数据集和大型语言模型,包括 Llama-2,对该模型的幻觉水平进行广泛评估,并展示了我们的方法在自动检测幻觉方面的有效性,达到了 87% 的平衡准确率,而无需依赖外部知识。
Mar, 2024
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来 LLM 幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
大型语言模型在回答事实性问题方面很成功,但也容易产生幻觉。我们通过推理动态的角度来调查 LLMs 拥有正确回答知识却仍然出现幻觉的现象,这是以往对幻觉研究中没有涉及的领域。通过两个关键思想,我们能够进行这种分析。首先,我们识别了查询相同三元知识但产生不同答案的实际问题。因此,模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次,为了测量这种模式,我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间,输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中,输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征,我们构建了一个能够以 88% 的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解 LLMs 在已知事实中产生幻觉的原因的启示,更重要的是,能够准确预测它们何时产生幻觉。
Mar, 2024
LLMs 出现的幻觉指的是 LLMs 产生的回应在逻辑上是连贯的,但事实上是不准确的。本文引入了一种名为 MIND 的无监督训练框架,利用 LLMs 的内部状态实时检测幻觉,无需手动注释,并提出了用于评估多个 LLMs 幻觉检测的新基准 HELM。我们的实验证明,MIND 在幻觉检测方面优于现有的最先进方法。
Mar, 2024
律师常见的经验法则错误假设对大型语言模型的查询及其常见的法律幻觉有极高百分比的影响,通过比较与结构化法律元数据的调查结果,并研究法律规定的一系列查询结果,我们开发了一种法律幻觉的分类方法,并提醒了不应迅速自主将流行的大型语言模型整合到法定任务中。
Jan, 2024
通过广泛系统实验,我们展示了传统方法无法解释 LLMs 在实践中为什么会产生幻觉,并通过大量内存专家的混合来增强 LLMs,可以轻松地记忆大数据集,为去除幻觉设计了 Lamini-1 模型。
Jun, 2024
本文阐述了人工智能幻觉的根本原因及其在人工智能中的重要意义,并就幻觉分类进行了研究,包括机器翻译、问答系统、对话系统、摘要系统、基于大语言模型的知识图谱以及视觉问答等多个任务。同时,本研究探讨了缓解幻觉的潜在策略,旨在提高大语言模型的整体可靠性。该研究属于 HeReFaNMi(Health-Related Fake News Mitigation)项目的一部分,该项目得到 NGI Search 的慷慨支持,旨在抑制互联网上健康相关虚假新闻的传播,致力于在不断演进的人工智能技术时代保护信息传播的完整性。
Nov, 2023
通过使用知识探测、一致性检查和强化学习等方法,我们发现大型语言模型在辨别和表达其内部知识状态方面具有强大的自我意识,然而它们在生成过程中常常无法表达其内部知识,导致虚构。为此,我们提出了一种自动虚构注释工具,通过梦网,该工具将知识探测和一致性检查方法结合起来,以排名虚构偏好数据。通过使用知识偏好作为奖励,我们提出了一种从知识反馈中强化学习(RLKF)的训练框架,利用强化学习增强大型语言模型的真实性和诚实性。我们对多个模型进行的实验证明,RLKF 训练有效地增强了模型利用其内部知识状态的能力,在各种基于知识和诚实性的任务中提高了性能。
Jan, 2024
大型语言模型(如 ChatGPT、Bard 和 Llama)在不同领域的应用中取得了显著的成功。然而,虚假生成是限制其广泛应用的关键问题。本报告意在综述虚假生成检测和虚假生成减轻的现有文献,旨在为对大型语言模型和将其应用于实际任务感兴趣的工程师和研究人员提供参考。
Jan, 2024