大型语言模型是怀疑论者：输入冲突妄想的假阴性问题

Jun, 2024

大型语言模型是怀疑论者：输入冲突妄想的假阴性问题

Large Language Models are Skeptics: False Negative Problem of Input-conflicting Hallucination

Jongyoon Song, Sangwon Yu, Sungroh Yoon

TL;DR为了解决语言模型生成与输入上下文不一致的响应的偏见问题，本文揭示了一类新的偏见，即输入 - 冲突幻觉。通过实验证明，语言模型在评估语句的正确性时，更偏向于返回虚假的负面判断，表现出更强的过度自信，并研究了上下文和查询重写对于解决偏见问题的有效性。

Abstract

In this paper, we identify a new category of bias that induces input-conflicting hallucinations, where large language models (LLMs) genera

bias hallucinations false negative problem language models context

发现论文，激发创造

探索和解决涉及否定的 LMs 中的幻觉问题

研究了大型语言模型中幻觉问题中否定的影响，发现在涉及否定的任务中，开源最先进的大型语言模型在虚构上存在严重的缺点，提出了多种减轻这些幻觉的策略并展示了它们的影响。

Jun, 2024

关于大型语言模型对已知事实的臆断

大型语言模型在回答事实性问题方面很成功，但也容易产生幻觉。我们通过推理动态的角度来调查 LLMs 拥有正确回答知识却仍然出现幻觉的现象，这是以往对幻觉研究中没有涉及的领域。通过两个关键思想，我们能够进行这种分析。首先，我们识别了查询相同三元知识但产生不同答案的实际问题。因此，模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次，为了测量这种模式，我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间，输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中，输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征，我们构建了一个能够以 88% 的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解 LLMs 在已知事实中产生幻觉的原因的启示，更重要的是，能够准确预测它们何时产生幻觉。

Mar, 2024

推理任务中大型语言模型产生幻觉的来源

该论文通过对多个大型语言模型的行为研究发现，训练数据的记忆和频率偏好是导致生成式大型语言模型产生幻觉的两个主要因素，这些模型在自然语言推断等应用任务中表现出明显的问题。

May, 2023

不熟悉的微调范例控制语言模型的幻觉

通过深入研究机制，我们发现大型语言模型（LLMs）如何产生幻觉，研究表明 LLMs 在面对不熟悉概念时倾向于默认使用一种 “关于不确定性的预测”，可以通过修改训练数据中的监督来控制 LLMs 对于不熟悉输入的预测，我们基于这些原则，开发了一种 RL 方法，更可靠地减轻大型生成任务中的幻觉问题，并通过多项实验证实了我们的发现。

Mar, 2024

语言模型幻觉如何滚雪球

语言模型中常见的错误是幻觉，LM 可能会输出错误的断言，但其能够单独识别为不正确。ChatGPT 和 GPT-4 找到的解释的 87％都是错误，这被称为幻觉滚雪球。

May, 2023

自信过度的大型语言模型隐藏状态中的幻觉无法解答现象

当生成虚幻答案时，大型语言模型表达问题是否无法回答的事实，结果表明，LLMs 的潜在表示中存在空间组织机制，揭示了这些模型以前未被探索的方面。同时，为了更好地遵守事实生成，特别是在问题无法回答的情况下，这些发现为改进解码技术的发展铺平了道路。

Oct, 2023

LLM 有针对性的低效率问题主要影响弱势用户

通过对三种领先的大型语言模型 (LLM) 和两个不同的针对真实性和事实性的数据集进行深入实验，我们研究了 LLM 响应质量在信息准确性、真实性和拒绝方面如何随用户的英语水平、教育水平和国籍的不同而变化。我们的研究结果表明，领先的 LLM 模型在不可取的行为方面存在不均衡，对英语水平较低、教育水平较低和来自美国以外的用户具有更多的不可取行为，从而使这些模型对于最弱势的用户成为不可靠的信息来源。

Jun, 2024

审慎沉默还是愚蠢闲谈？对大型语言模型对未知问题的响应的研究

这项研究系统地调查了大型语言模型在缺乏先验知识以生成有意义回答的情况下常出现的产生杜撰和幻觉的问题，旨在探讨如何教导这些模型主动和可靠地表达不确定性。研究发现，在处理无法回答问题的同时，通过针对训练数据中缺失信息设计的对抗性问答基准测试，经过指令微调和来自人类反馈的强化学习后的大型语言模型表现明显优于未经处理的模型。此外，通过提取不确定度表达的方法得到的结果并不始终与大型语言模型直接回答问题的自信程度一致。因此，我们呼吁进一步研究如何教导大型语言模型主动和可靠地表达不确定性。

Nov, 2023

语言模型产生幻觉但在事实验证中可能表现出色

自然语言处理和大型语言模型在近期取得了显著进展，然而，大型语言模型常常会出现 “幻觉”，导致非事实性的输出。我们的人工评估结果证实了这一严重的幻觉问题，显示即使是 GPT-3.5 的事实性输出不到 25%。这凸显了事实验证器的重要性，以便衡量和激励进展。我们的系统调查确认了大型语言模型可以被重新用作有效的事实验证器，与人类判断具有强相关性，至少在维基百科领域。令人惊讶的是，在我们的研究中，最不事实生成器 FLAN-T5-11B 表现最佳作为事实验证器，甚至超过了像 GPT3.5 和 ChatGPT 这样更有能力的大型语言模型。进一步深入分析了这些大型语言模型对高质量证据的依赖以及它们在鲁棒性和泛化能力方面的不足。我们的研究为开发可信赖的生成模型提供了见解。

Oct, 2023

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023