人类和计算机中的语言处理
研究总结了最近对大型语言模型中的幻觉现象的有趣见解,提出了一个包含各种文本生成任务中幻觉的新颖分类法,以及理论洞察、检测方法和改进方法,并提出了若干未来的研究方向。
Sep, 2023
本研究针对大规模多语言机器翻译,分析了 M2M 常规神经机器翻译模型和通用的 ChatGPT 模型中幻觉翻译的普遍性、特性和缓解措施,以期构建更加稳定和可信的机器翻译系统。
Mar, 2023
最近的语言模型在生成对外观听起来真实但实际上是虚假的文本方面存在神秘的倾向,这对于基于语言的人工智能系统的可用性构成了障碍,并可能对依赖其输出的人造成伤害。本研究表明,预训练语言模型出现虚构某些类型的事实的统计原因是固有的,与变压器 LM 架构或数据质量无关。对于那些无法从训练数据中确定真实性的 “任意” 事实,我们表明,在适用于生成式语言模型的统计校准条件下,产生幻觉是必要的。具体而言,如果任何事实的最大概率受限,则我们表明产生幻觉的概率接近于训练数据中仅发生一次的事实的分数(一种 “Good-Turing” 估计),即使假设没有错误的理想训练数据。一个结论是,预训练模型要成为足够好的预测器(即校准),可能需要进行后期处理以减轻在训练集中只出现一次的任意事实类型的幻觉。然而,我们的分析还表明,预训练不会在训练数据中多次出现的事实(如对文章和书籍的引用等)或系统性事实(如算术计算)上产生幻觉。因此,不同的架构和学习算法可能会减轻这些后一类幻觉。
Nov, 2023
语言模型中常见的错误是幻觉,LM 可能会输出错误的断言,但其能够单独识别为不正确。ChatGPT 和 GPT-4 找到的解释的 87%都是错误,这被称为幻觉滚雪球。
May, 2023
在这份调查中,我们旨在对大型语言模型(LLM)幻像领域的最新进展进行全面而深入的概述。我们从 LLM 幻像创新分类入手,然后深入探讨了导致幻像的因素。接下来,我们全面介绍了幻像检测方法和基准。此外,我们还相应介绍了用于减轻幻像的代表性方法。最后,我们分析了突出当前限制的挑战,并制定了未来 LLM 幻像研究的开放问题,旨在描绘发展方向。
Nov, 2023
本研究证明,在大型语言模型中消除幻觉是不可能的,因为我们定义了一个形式世界,其中幻觉被定义为一个可计算的语言模型与一个可计算的真实函数之间的不一致性。通过使用学习理论的结果,我们表明语言模型无法学习所有的可计算函数,因此它们将始终产生幻觉。此外,我们还描述了真实世界中受幻觉影响的任务,并通过实证验证了我们的论点。最后,我们讨论了现有幻觉减轻方法的可能机制和功效,以及对安全部署大型语言模型的实际影响。
Jan, 2024
语言是理解和交流情境的关键,而语言处理系统使用类似人脑的神经网络以及查询注意力等方法来提高其能力,但当前的模型主要集中在内部语言任务上,限制其理解情境的能力,因此需要未来的模型应用认知神经科学和人工智能来扩展理解任务。
Dec, 2019