大型语言模型总会出现幻觉,我们需要与此共存
本文调查了近期关于大型语言模型(LLMs)幻觉的检测、解释和缓解的努力,并着重讨论了LLMs所带来的独特挑战,提出了LLM幻觉现象的分类和评估基准,并分析了现有的缓解LLM幻觉方法,探讨了未来研究的潜在方向。
Sep, 2023
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从LLM幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来LLM幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
最近的语言模型在生成对外观听起来真实但实际上是虚假的文本方面存在神秘的倾向,这对于基于语言的人工智能系统的可用性构成了障碍,并可能对依赖其输出的人造成伤害。本研究表明,预训练语言模型出现虚构某些类型的事实的统计原因是固有的,与变压器LM架构或数据质量无关。对于那些无法从训练数据中确定真实性的“任意”事实,我们表明,在适用于生成式语言模型的统计校准条件下,产生幻觉是必要的。具体而言,如果任何事实的最大概率受限,则我们表明产生幻觉的概率接近于训练数据中仅发生一次的事实的分数(一种“Good-Turing”估计),即使假设没有错误的理想训练数据。一个结论是,预训练模型要成为足够好的预测器(即校准),可能需要进行后期处理以减轻在训练集中只出现一次的任意事实类型的幻觉。然而,我们的分析还表明,预训练不会在训练数据中多次出现的事实(如对文章和书籍的引用等)或系统性事实(如算术计算)上产生幻觉。因此,不同的架构和学习算法可能会减轻这些后一类幻觉。
Nov, 2023
本研究证明,在大型语言模型中消除幻觉是不可能的,因为我们定义了一个形式世界,其中幻觉被定义为一个可计算的语言模型与一个可计算的真实函数之间的不一致性。通过使用学习理论的结果,我们表明语言模型无法学习所有的可计算函数,因此它们将始终产生幻觉。此外,我们还描述了真实世界中受幻觉影响的任务,并通过实证验证了我们的论点。最后,我们讨论了现有幻觉减轻方法的可能机制和功效,以及对安全部署大型语言模型的实际影响。
Jan, 2024
通过基于认知偏见和其他心理现象的心理分类学,我们质疑将“幻觉”一词应用于大型语言模型,并利用人类内部解决类似挑战的见解来开发缓解LLMs幻觉的策略,为提高LLM的可靠性提供细致精确的理解和可操作的途径。
Feb, 2024
大型语言模型在回答事实性问题方面很成功,但也容易产生幻觉。我们通过推理动态的角度来调查LLMs拥有正确回答知识却仍然出现幻觉的现象,这是以往对幻觉研究中没有涉及的领域。通过两个关键思想,我们能够进行这种分析。首先,我们识别了查询相同三元知识但产生不同答案的实际问题。因此,模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次,为了测量这种模式,我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间,输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中,输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征,我们构建了一个能够以88%的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解LLMs在已知事实中产生幻觉的原因的启示,更重要的是,能够准确预测它们何时产生幻觉。
Mar, 2024
通过主题分析,我们对生成的代码进行了总结和分类,建立了包括五个主要类别的幻觉的综合分类法。基于结果,我们提出了一个评估代码 LLM 性能的基准,名为 HalluCode,并通过 HalluCode 和 HumanEval 进行了幻觉识别和减轻实验,结果表明现有的 LLM 在识别幻觉方面面临巨大挑战,尤其是在识别幻觉类型方面,几乎无法减轻幻觉。我们相信我们的研究结果将为幻觉评估、检测和减轻的未来研究提供指导,为建立更有效可靠的代码 LLMs 铺平道路。
Apr, 2024
通过对103篇NLP研究的批判性审查,我们调查了大型语言模型中幻觉的特点;通过对社会学和技术文献的全面审阅,我们发现了对“幻觉”一词缺乏共识;此外,我们对171名NLP和AI领域的从业者进行了一项调查,以了解对幻觉的不同观点;我们的分析强调了在NLP中明确定义和框架定位幻觉的必要性,突出了可能的挑战,而我们的调查结果提供了对幻觉对社会影响和后果的主题性理解。
Apr, 2024
通过广泛系统实验,我们展示了传统方法无法解释LLMs在实践中为什么会产生幻觉,并通过大量内存专家的混合来增强LLMs,可以轻松地记忆大数据集,为去除幻觉设计了Lamini-1模型。
Jun, 2024
通过干预大型语言模型(LLMs)的自注意力层,我们发现在LLMs的前部或尾部禁用特定的自注意力层可以减轻幻觉问题,从而为理解和减轻LLMs的幻觉问题打开了一条新的途径。
Jul, 2024