RLHF-V：通过细粒度纠正人类反馈以实现可信赖的 MLLMs

Dec, 2023

RLHF-V：通过细粒度纠正人类反馈以实现可信赖的 MLLMs

RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback

Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Yifeng Han...

TL;DR通过细粒度纠正的人类反馈，RLHF-V 通过行为对齐增强了 Multi-Modal Large Language Models (MLLMs) 的可靠性。通过在自动化和人类评估中进行全面实验，RLHF-V 能够以有希望的数据和计算效率，在五个基准测试中显著降低 MLLM 的错觉率，并达到开放源代码 MLLM 中可靠性方面的最新技术水平。

Abstract

multimodal large language models (MLLMs) have recently demonstrated impressive capabilities in multimodal understanding, reasoning, and interaction. However, existing MLLMs prevalently suffer from serious hallucination

multimodal large language models hallucination problems rlhf-v trustworthiness fine-grained correctional human feedback

发现论文，激发创造

使用事实增强的 RLHF 对齐大型多模型

通过使用加强学习从人类反馈中获取的方法，我们提出了基于事实增强的视觉语言对齐算法，以解决大多模态模型中的模态不匹配问题，并在实际场景中取得了显著的改进。

Sep, 2023

RLAIF-V：通过开源 AI 反馈对鲁棒性超级 GPT-4V 进行 MLLM 对齐

通过使用反馈学习降低多模态大型语言模型（MLLMs）的错觉，该研究引入了 RLAIF-V 框架，利用高质量反馈数据和在线反馈学习算法，从而提高模型的可信度，并在多个评估中展示了其优越性。

May, 2024

基于策略的细粒度知识反馈用于幻觉缓解

在这篇论文中，我们介绍了一种基于在线强化学习的细粒度反馈方法（RLFH）来减轻大型语言模型在生成过程中产生的幻觉行为。通过将大模型的结果分解为原子事实，并提供语句级评估信号，RLFH 能够探索其内部知识的边界，并提供关于这些探索的在线、细粒度反馈。为了进行可靠的生成行为学习，RLFH 采用在线强化算法根据这些基于标记的奖励调整模型行为，以减轻幻觉现象。RLFH 还引入了一种基于大型语言模型的事实评估框架，可以在不需要人工干预的情况下验证原子事实的真实性和有用性。在 HotpotQA、SQuADv2 和传记基准测试上的实验显示，RLFH 可以平衡大型语言模型在生成过程中使用内部知识的程度，从而消除了幻觉行为。

Jun, 2024

RLHF 揭示：对于 LLMs 的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为 RLHF 核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对 RLHF 的挑战进行了描述，为研究人员和从业者理解 RLHF 的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

强化学习的更多人类友好性，更多的信任？对语言模型可靠性的影响

研究发现在大型语言模型的发展中，通过认同与人类价值观的算法对模型进行对齐的性能虽有所改善，但对模型的可信度提升并未经过彻底的测试。通过对五个可信度垂直方面进行实证研究，发现在偏好数据、对齐算法和特定可信度方面之间存在复杂的相互作用。因此，需要更加微妙的方法对模型进行对齐，以期望引导研究社区开发既能胜任任务又值得信赖的语言模型。

Apr, 2024

学会相信自己的感受：在语言模型中利用自我意识缓解幻觉

通过使用知识探测、一致性检查和强化学习等方法，我们发现大型语言模型在辨别和表达其内部知识状态方面具有强大的自我意识，然而它们在生成过程中常常无法表达其内部知识，导致虚构。为此，我们提出了一种自动虚构注释工具，通过梦网，该工具将知识探测和一致性检查方法结合起来，以排名虚构偏好数据。通过使用知识偏好作为奖励，我们提出了一种从知识反馈中强化学习（RLKF）的训练框架，利用强化学习增强大型语言模型的真实性和诚实性。我们对多个模型进行的实验证明，RLKF 训练有效地增强了模型利用其内部知识状态的能力，在各种基于知识和诚实性的任务中提高了性能。

Jan, 2024

通过自然语言以人工反馈聚合大规模语言模型数据对齐

通过模型中人类反馈的学习，改进大型语言模型（LLMs）的输出与人类期望的一致性，利用人类反馈信号中以响应对的排名形式的强化学习，研究使用自然语言反馈模型的数据效率，通过对 ChatGPT、BARD 和 Vicuna 等模型的反馈逐渐改进，提高了模型的响应质量。

Nov, 2023

通过偏好微调来对齐视觉大型语言模型中的模态

通过引入偏好调优和自动生成数据的方法 POVID，本研究解决了视觉大语言模型中可能出现的幻觉问题，并通过直接偏好优化的强化学习模型提高了模型性能。

Feb, 2024

多层次偏好自动化技术在 MLLM 中的应用

通过采用多级偏好（例如优秀、中等、较差）取代二元偏好，我们提出了一种基于增强学习从人类反馈中引导多模态大型语言模型学习优质响应、避免生成错误响应的方案，并设计了自动化多级偏好框架（AMP）、多级直接偏好优化算法（MDPO）以及错觉基准测试 MRHal-Bench，实验证明了我们提出的方法的有效性。

May, 2024

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024