语言模型非事实性幻觉的机制研究
这篇论文研究了知识驱动的对话模型中的幻觉问题,通过广泛的人类研究发现标准测试数据集中有超过60%的幻觉响应,导致模型产生幻觉现象。提出了关于训练数据和模型质量的重要问题,并为未来的研究提供了公开的批注。
Apr, 2022
通过结合幻觉水平量化和幻觉原因调查的关联分析,我们能够观察到每个风险因素的每个值下的幻觉水平,检查每个风险因素的贡献和统计显著性,同时排除其他因素的混淆效应,进一步揭示大型语言模型中常识记忆、关系推理和指令遵循等潜在缺陷,为预训练和监督微调过程提供指导,以减轻幻觉问题。
Sep, 2023
通过细致分类和度、方向及类别上的倾向进行细粒度的幻视建模和缓解,我们提供了两个幻视方向(FM和SL)的全面理解,并将其进一步细分为内在和外在,分为温和、中度和令人担忧的三个严重程度,同时我们还对幻视进行了六种类型的细致分类。此外,我们还提供了包含75,000个样本和人工注释的HallucInation eLiciTation(HILT)数据集。最后,我们提出了Hallucination Vulnerability Index(HVI),该指数可以量化和评估语言模型在产生幻视方面的脆弱性,并作为人工智能相关政策制定的标准工具。
Oct, 2023
我们通过探究模型生成的输入、输出和内部状态中的指标来检测大型语言模型生成中的幻觉,结果表明这些指标在幻觉生成和非幻觉生成之间存在差异,我们进一步通过训练二分类器使用这些指标作为输入特征来将模型生成划分为幻觉和非幻觉,此二分类器的AUROC值达到0.80,并且我们展示了先前的幻觉中的令牌可以预测随后的幻觉。
Dec, 2023
此研究报告探讨了深度神经网络产生的幻觉是一类输出错误,在自动语音识别中幻觉的定义为模型生成的转录与源话语在语义上无关,但仍然流畅和连贯,幻觉与模型产生的自然语言输出相似性带来了误导的危险,并影响系统的可信度。为了解决这个问题,作者提出了一种基于干扰的方法来评估自动语音识别模型在测试时易于产生幻觉,该方法不需要访问训练数据集。作者展示了这种方法有助于区分在基准词错误率相似的情况下产生幻觉和不产生幻觉的模型。作者进一步探讨了自动语音识别错误类型与数据集噪声类型之间的关系,以确定最有可能产生幻觉输出的噪声类型。最后,作者通过给话语注入随机噪声的方式发现了诱导产生幻觉的方法。
Jan, 2024
大型语言模型经常出现幻觉问题,其中一种显著的问题是“伪前提幻觉”,本文分析了伪前提幻觉的工作机理,并提出了一种名为FAITH的方法来减轻伪前提幻觉,实验证明该方法可以显著提高模型性能。
Feb, 2024
大型语言模型经常出现虚幻和事实错误,本研究从内部表征的角度探讨了LLM幻觉的潜在机制,并发现了与幻觉相关的显著模式:相对于错误生成,正确生成在上下文令牌的隐藏状态中具有更尖锐的上下文激活。基于这一发现,我们提出了一种基于熵的度量方式来量化上下文隐藏状态中的“尖锐度”,并将其纳入解码过程中,形成一种约束解码方法。在各种知识获取和幻觉评估基准测试上进行的实验表明我们的方法具有持续的有效性,例如在TruthfulQA上获得了高达8.6个百分点的提升。我们相信这项研究可以改善我们对幻觉的理解,并作为幻觉缓解的实用解决方案。
Mar, 2024
大型语言模型在回答事实性问题方面很成功,但也容易产生幻觉。我们通过推理动态的角度来调查LLMs拥有正确回答知识却仍然出现幻觉的现象,这是以往对幻觉研究中没有涉及的领域。通过两个关键思想,我们能够进行这种分析。首先,我们识别了查询相同三元知识但产生不同答案的实际问题。因此,模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次,为了测量这种模式,我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间,输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中,输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征,我们构建了一个能够以88%的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解LLMs在已知事实中产生幻觉的原因的启示,更重要的是,能够准确预测它们何时产生幻觉。
Mar, 2024
通过广泛系统实验,我们展示了传统方法无法解释LLMs在实践中为什么会产生幻觉,并通过大量内存专家的混合来增强LLMs,可以轻松地记忆大数据集,为去除幻觉设计了Lamini-1模型。
Jun, 2024
本研究针对语言模型的幻觉问题,特别是训练集中的正确答案如何影响幻觉现象。通过构建知识图谱数据集并训练不同规模的语言模型,发现更大的模型和更长的训练时间会降低幻觉发生率,但要实现较低的幻觉率需要显著更大的模型和计算成本。此外,研究还揭示了语言模型的规模与幻觉可检测性之间的逆向关系。
Aug, 2024