摇撼基础的耳语:对大规模语言模型中的虚假前提幻觉进行分析和缓解
大型语言模型(LLMs)在各种自然语言处理任务上表现出色。然而,它们容易生成流畅但不真实的回复,即 “幻觉”。幻觉可能导致错误信息的传播,并在关键应用中造成伤害。减少幻觉具有挑战性,因为它们来源于嘈杂的数据、模型自信心过度、缺乏知识和生成过程等因素。最近的研究通过表示编辑和解码算法来解决这个问题,实现减少幻觉但不进行重大结构更改或重新训练。然而,这些方法要么隐式地在潜在空间中编辑 LLMs 的行为,要么在解码过程中抑制输出不忠实的结果的倾向,而不是显式地对幻觉进行建模。在本文中,我们介绍了忠实微调(F2),这是一种通过精心设计的损失函数在微调过程中显式地对忠实回答建模的新方法。我们在常用数据集上进行了广泛的实验,并证明 F2 相对于基线模型能够取得显著改进。
Jun, 2024
通过引入一种名为【自我检测】的新技术,本研究提出了一种预防性策略来减少大型语言模型中的 “幻觉” 现象,实验证明该技术在幻觉检测方面表现优异,对于提高语言助手的可靠性、适用性和解释性具有重要意义。
Sep, 2023
本文提出了一种新颖的无参考、基于不确定性的大语言模型 (LLM) 幻觉检测方法,通过关注给定文本中最具信息和重要性的关键词、历史上不可靠的标记以及标记属性(如类型和频率),实现了最新的检测方法,消除了对额外信息的需求。
Nov, 2023
通过多个数据集和大型语言模型,包括 Llama-2,对该模型的幻觉水平进行广泛评估,并展示了我们的方法在自动检测幻觉方面的有效性,达到了 87% 的平衡准确率,而无需依赖外部知识。
Mar, 2024
研究了大型语言模型中幻觉问题中否定的影响,发现在涉及否定的任务中,开源最先进的大型语言模型在虚构上存在严重的缺点,提出了多种减轻这些幻觉的策略并展示了它们的影响。
Jun, 2024
为了解决语言模型生成与输入上下文不一致的响应的偏见问题,本文揭示了一类新的偏见,即输入 - 冲突幻觉。通过实验证明,语言模型在评估语句的正确性时,更偏向于返回虚假的负面判断,表现出更强的过度自信,并研究了上下文和查询重写对于解决偏见问题的有效性。
Jun, 2024
大型语言模型在回答事实性问题方面很成功,但也容易产生幻觉。我们通过推理动态的角度来调查 LLMs 拥有正确回答知识却仍然出现幻觉的现象,这是以往对幻觉研究中没有涉及的领域。通过两个关键思想,我们能够进行这种分析。首先,我们识别了查询相同三元知识但产生不同答案的实际问题。因此,模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次,为了测量这种模式,我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间,输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中,输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征,我们构建了一个能够以 88% 的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解 LLMs 在已知事实中产生幻觉的原因的启示,更重要的是,能够准确预测它们何时产生幻觉。
Mar, 2024
通过广泛系统实验,我们展示了传统方法无法解释 LLMs 在实践中为什么会产生幻觉,并通过大量内存专家的混合来增强 LLMs,可以轻松地记忆大数据集,为去除幻觉设计了 Lamini-1 模型。
Jun, 2024
提出的 “感应 - 对比解码” 策略通过降低幻觉导致的不真实预测,增强了大型语言模型生成内容的可信度。在多个模型规模和系列上的实验证明,该方法能有效提高大型语言模型的内容真实性。
Dec, 2023
本文阐述了人工智能幻觉的根本原因及其在人工智能中的重要意义,并就幻觉分类进行了研究,包括机器翻译、问答系统、对话系统、摘要系统、基于大语言模型的知识图谱以及视觉问答等多个任务。同时,本研究探讨了缓解幻觉的潜在策略,旨在提高大语言模型的整体可靠性。该研究属于 HeReFaNMi(Health-Related Fake News Mitigation)项目的一部分,该项目得到 NGI Search 的慷慨支持,旨在抑制互联网上健康相关虚假新闻的传播,致力于在不断演进的人工智能技术时代保护信息传播的完整性。
Nov, 2023