基于策略的细粒度知识反馈用于幻觉缓解

Jun, 2024

基于策略的细粒度知识反馈用于幻觉缓解

On-Policy Fine-grained Knowledge Feedback for Hallucination Mitigation

Xueru Wen, Xinyu Lu, Xinyan Guan, Yaojie Lu, Hongyu Lin...

TL;DR在这篇论文中，我们介绍了一种基于在线强化学习的细粒度反馈方法（RLFH）来减轻大型语言模型在生成过程中产生的幻觉行为。通过将大模型的结果分解为原子事实，并提供语句级评估信号，RLFH 能够探索其内部知识的边界，并提供关于这些探索的在线、细粒度反馈。为了进行可靠的生成行为学习，RLFH 采用在线强化算法根据这些基于标记的奖励调整模型行为，以减轻幻觉现象。RLFH 还引入了一种基于大型语言模型的事实评估框架，可以在不需要人工干预的情况下验证原子事实的真实性和有用性。在 HotpotQA、SQuADv2 和传记基准测试上的实验显示，RLFH 可以平衡大型语言模型在生成过程中使用内部知识的程度，从而消除了幻觉行为。

Abstract

hallucination occurs when large language models (LLMs) exhibit behavior that deviates from the boundaries of their knowledge during the response generation process. Previous learning-based methods focus on detect

hallucination large language models reinforcement learning fine-grained feedback hallucination mitigation

发现论文，激发创造

学会相信自己的感受：在语言模型中利用自我意识缓解幻觉

通过使用知识探测、一致性检查和强化学习等方法，我们发现大型语言模型在辨别和表达其内部知识状态方面具有强大的自我意识，然而它们在生成过程中常常无法表达其内部知识，导致虚构。为此，我们提出了一种自动虚构注释工具，通过梦网，该工具将知识探测和一致性检查方法结合起来，以排名虚构偏好数据。通过使用知识偏好作为奖励，我们提出了一种从知识反馈中强化学习（RLKF）的训练框架，利用强化学习增强大型语言模型的真实性和诚实性。我们对多个模型进行的实验证明，RLKF 训练有效地增强了模型利用其内部知识状态的能力，在各种基于知识和诚实性的任务中提高了性能。

Jan, 2024

RLHF-V：通过细粒度纠正人类反馈以实现可信赖的 MLLMs

通过细粒度纠正的人类反馈，RLHF-V 通过行为对齐增强了 Multi-Modal Large Language Models (MLLMs) 的可靠性。通过在自动化和人类评估中进行全面实验，RLHF-V 能够以有希望的数据和计算效率，在五个基准测试中显著降低 MLLM 的错觉率，并达到开放源代码 MLLM 中可靠性方面的最新技术水平。

Dec, 2023

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

FGAIF：用细粒度 AI 反馈对齐大规模的视觉语言模型

通过 Fine-Grained 人工智能反馈以及基于强化学习将多模态对齐，解决了 Large Vision-Language Models 中的幻觉问题，提高了模型的性能。

Apr, 2024

不熟悉的微调范例控制语言模型的幻觉

通过深入研究机制，我们发现大型语言模型（LLMs）如何产生幻觉，研究表明 LLMs 在面对不熟悉概念时倾向于默认使用一种 “关于不确定性的预测”，可以通过修改训练数据中的监督来控制 LLMs 对于不熟悉输入的预测，我们基于这些原则，开发了一种 RL 方法，更可靠地减轻大型生成任务中的幻觉问题，并通过多项实验证实了我们的发现。

Mar, 2024

细粒度人类反馈为语言模型训练提供更好的奖励

本文介绍了 Fine-Grained RLHF 框架，可以对包含一定程度错误或无效信息的长文本提供细化的人类反馈进行训练，并实验表明使用该框架能够改善语言模型生成过程中生成虚假、有毒、无关的输出等问题。

Jun, 2023

细粒度幻觉检测与编辑语言模型

大语言模型倾向于生成多样的事实不准确的陈述，本文提出了一个新的任务 - 自动细粒度幻觉检测，并提出了一个涵盖六种层次定义的幻觉类型的综合分类法。通过引入一个新的基准测试以评估，我们的分析结果显示 ChatGPT 和 Llama 2-Chat 的输出中有 60% 和 75% 的幻觉，而其中大多数幻觉属于未被充分研究的类别。为了解决这个问题的初步步骤，我们训练了 FAVA，一个通过精心设计的合成数据生成来检测和纠正细粒度幻觉的检索增强的语言模型。在我们的基准测试中，我们的自动和人工评估显示 FAVA 在细粒度幻觉检测方面明显优于 ChatGPT，尽管还存在大量改进的空间。FAVA 提供的修改还提高了语言模型生成文本的准确性，导致了 5-10% 的 FActScore 改进。

Jan, 2024

减轻大规模语言模型的虚构问题的忠实微调

大型语言模型（LLMs）在各种自然语言处理任务上表现出色。然而，它们容易生成流畅但不真实的回复，即 “幻觉”。幻觉可能导致错误信息的传播，并在关键应用中造成伤害。减少幻觉具有挑战性，因为它们来源于嘈杂的数据、模型自信心过度、缺乏知识和生成过程等因素。最近的研究通过表示编辑和解码算法来解决这个问题，实现减少幻觉但不进行重大结构更改或重新训练。然而，这些方法要么隐式地在潜在空间中编辑 LLMs 的行为，要么在解码过程中抑制输出不忠实的结果的倾向，而不是显式地对幻觉进行建模。在本文中，我们介绍了忠实微调（F2），这是一种通过精心设计的损失函数在微调过程中显式地对忠实回答建模的新方法。我们在常用数据集上进行了广泛的实验，并证明 F2 相对于基线模型能够取得显著改进。

Jun, 2024

通过对标题重写的方式，利用大型视觉语言模型进行微调来减轻细粒度的幻觉

本文介绍了 ReCaption, 一个用于减少视觉 - 语言模型中细粒度物体幻觉的框架，并通过实验证明其有效性。

Dec, 2023

使用事实增强的 RLHF 对齐大型多模型

通过使用加强学习从人类反馈中获取的方法，我们提出了基于事实增强的视觉语言对齐算法，以解决大多模态模型中的模态不匹配问题，并在实际场景中取得了显著的改进。

Sep, 2023