减轻大规模语言模型的虚构问题的忠实微调

Jun, 2024

减轻大规模语言模型的虚构问题的忠实微调

Mitigating Large Language Model Hallucination with Faithful Finetuning

Minda Hu, Bowei He, Yufei Wang, Liangyou Li, Chen Ma...

TL;DR大型语言模型（LLMs）在各种自然语言处理任务上表现出色。然而，它们容易生成流畅但不真实的回复，即 “幻觉”。幻觉可能导致错误信息的传播，并在关键应用中造成伤害。减少幻觉具有挑战性，因为它们来源于嘈杂的数据、模型自信心过度、缺乏知识和生成过程等因素。最近的研究通过表示编辑和解码算法来解决这个问题，实现减少幻觉但不进行重大结构更改或重新训练。然而，这些方法要么隐式地在潜在空间中编辑 LLMs 的行为，要么在解码过程中抑制输出不忠实的结果的倾向，而不是显式地对幻觉进行建模。在本文中，我们介绍了忠实微调（F2），这是一种通过精心设计的损失函数在微调过程中显式地对忠实回答建模的新方法。我们在常用数据集上进行了广泛的实验，并证明 F2 相对于基线模型能够取得显著改进。

Abstract

large language models (LLMs) have demonstrated remarkable performance on various natural language processing tasks. However, they are prone to generating fluent yet untruthful responses, known as "hallucinations"

large language models hallucinations mitigating faithful finetuning experiments

发现论文，激发创造

不熟悉的微调范例控制语言模型的幻觉

通过深入研究机制，我们发现大型语言模型（LLMs）如何产生幻觉，研究表明 LLMs 在面对不熟悉概念时倾向于默认使用一种 “关于不确定性的预测”，可以通过修改训练数据中的监督来控制 LLMs 对于不熟悉输入的预测，我们基于这些原则，开发了一种 RL 方法，更可靠地减轻大型生成任务中的幻觉问题，并通过多项实验证实了我们的发现。

Mar, 2024

通过自我反思来缓解大型语言模型中的幻想

通过与大规模语言模型和数据集合作，本文分析了医学生成型问答系统中幻觉现象的问题，并提出了一种交互自我反思的方法来解决该挑战，最终实验证明该方法在幻觉减少方面优于基线模型。

Oct, 2023

对新知识进行细调的 LLMs 是否鼓励产生幻觉？

大型语言模型在通过有监督微调对齐时，会遇到并未通过预训练获得的新的事实信息，从而可能教会模型产生虚假的事实错误响应，导致模型训练生成不基于其现有知识的事实。本研究旨在研究这种新知识暴露对经过微调的模型利用其现有知识的影响。我们设计了一个可控制的实验，并集中于封闭式问答，通过在微调示例中引入新知识的比例来变化。我们证明大型语言模型在微调过程中较难获得新的事实知识，因为引入新知识的微调示例要比与模型现有知识相一致的示例学习速度慢得多。然而，我们还发现随着新知识的学习，它们线性增加了模型产生虚假响应的倾向。综上所述，我们的结果强调通过微调引入新的事实知识的风险，并支持大型语言模型主要通过预训练获取事实知识，而微调则教会它们更有效地使用。

May, 2024

分类和减轻 LLMs 的幻觉的洞察力

本文阐述了人工智能幻觉的根本原因及其在人工智能中的重要意义，并就幻觉分类进行了研究，包括机器翻译、问答系统、对话系统、摘要系统、基于大语言模型的知识图谱以及视觉问答等多个任务。同时，本研究探讨了缓解幻觉的潜在策略，旨在提高大语言模型的整体可靠性。该研究属于 HeReFaNMi（Health-Related Fake News Mitigation）项目的一部分，该项目得到 NGI Search 的慷慨支持，旨在抑制互联网上健康相关虚假新闻的传播，致力于在不断演进的人工智能技术时代保护信息传播的完整性。

Nov, 2023

增强基于不确定性的错觉检测与更强的关注

本文提出了一种新颖的无参考、基于不确定性的大语言模型 (LLM) 幻觉检测方法，通过关注给定文本中最具信息和重要性的关键词、历史上不可靠的标记以及标记属性（如类型和频率），实现了最新的检测方法，消除了对额外信息的需求。

Nov, 2023

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

关于大型语言模型对已知事实的臆断

大型语言模型在回答事实性问题方面很成功，但也容易产生幻觉。我们通过推理动态的角度来调查 LLMs 拥有正确回答知识却仍然出现幻觉的现象，这是以往对幻觉研究中没有涉及的领域。通过两个关键思想，我们能够进行这种分析。首先，我们识别了查询相同三元知识但产生不同答案的实际问题。因此，模型在正确和错误输出上的行为差异提示了幻觉发生的模式。其次，为了测量这种模式，我们利用残差流到词汇空间的映射。我们揭示了在正确和幻觉案例之间，输出令牌概率在模型的不同层深度上的动态差异。在幻觉案例中，输出令牌的信息很少呈现出突然增加以及在模型的后期中始终表现出优势。利用动态曲线作为特征，我们构建了一个能够以 88% 的准确率准确检测幻觉预测的分类器。我们的研究揭示了理解 LLMs 在已知事实中产生幻觉的原因的启示，更重要的是，能够准确预测它们何时产生幻觉。

Mar, 2024

摇撼基础的耳语：对大规模语言模型中的虚假前提幻觉进行分析和缓解

大型语言模型经常出现幻觉问题，其中一种显著的问题是 “伪前提幻觉”，本文分析了伪前提幻觉的工作机理，并提出了一种名为 FAITH 的方法来减轻伪前提幻觉，实验证明该方法可以显著提高模型性能。

Feb, 2024

细粒度幻觉检测与编辑语言模型

大语言模型倾向于生成多样的事实不准确的陈述，本文提出了一个新的任务 - 自动细粒度幻觉检测，并提出了一个涵盖六种层次定义的幻觉类型的综合分类法。通过引入一个新的基准测试以评估，我们的分析结果显示 ChatGPT 和 Llama 2-Chat 的输出中有 60% 和 75% 的幻觉，而其中大多数幻觉属于未被充分研究的类别。为了解决这个问题的初步步骤，我们训练了 FAVA，一个通过精心设计的合成数据生成来检测和纠正细粒度幻觉的检索增强的语言模型。在我们的基准测试中，我们的自动和人工评估显示 FAVA 在细粒度幻觉检测方面明显优于 ChatGPT，尽管还存在大量改进的空间。FAVA 提供的修改还提高了语言模型生成文本的准确性，导致了 5-10% 的 FActScore 改进。

Jan, 2024

通过引发幻觉减轻大型语言模型的幻觉

提出的 “感应 - 对比解码” 策略通过降低幻觉导致的不真实预测，增强了大型语言模型生成内容的可信度。在多个模型规模和系列上的实验证明，该方法能有效提高大型语言模型的内容真实性。

Dec, 2023