FGAIF：用细粒度 AI 反馈对齐大规模的视觉语言模型

Apr, 2024

FGAIF：用细粒度 AI 反馈对齐大规模的视觉语言模型

FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback

Liqiang Jing, Xinya Du

TL;DR通过 Fine-Grained 人工智能反馈以及基于强化学习将多模态对齐，解决了 Large Vision-Language Models 中的幻觉问题，提高了模型的性能。

Abstract

large vision-language models (LVLMs) have demonstrated proficiency in tackling a variety of visual-language tasks. However, current LVLMs suffer from misalignment between text and image modalities which causes th

large vision-language models misalignment hallucination problems reinforcement learning fine-grained artificial intelligence feedback

发现论文，激发创造

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

通过偏好微调来对齐视觉大型语言模型中的模态

通过引入偏好调优和自动生成数据的方法 POVID，本研究解决了视觉大语言模型中可能出现的幻觉问题，并通过直接偏好优化的强化学习模型提高了模型性能。

Feb, 2024

通过对标题重写的方式，利用大型视觉语言模型进行微调来减轻细粒度的幻觉

本文介绍了 ReCaption, 一个用于减少视觉 - 语言模型中细粒度物体幻觉的框架，并通过实验证明其有效性。

Dec, 2023

用视觉监督减轻视觉 - 语言模型中的虚构问题

通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练，使其能够生成更精确的回答，减少幻觉；此外，提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型，与原始 LLaVA 相比，我们的方法在该基准下实现了 +8.4% 的改进，并在其他模型上取得了广泛的性能提升。

Nov, 2023

基于策略的细粒度知识反馈用于幻觉缓解

在这篇论文中，我们介绍了一种基于在线强化学习的细粒度反馈方法（RLFH）来减轻大型语言模型在生成过程中产生的幻觉行为。通过将大模型的结果分解为原子事实，并提供语句级评估信号，RLFH 能够探索其内部知识的边界，并提供关于这些探索的在线、细粒度反馈。为了进行可靠的生成行为学习，RLFH 采用在线强化算法根据这些基于标记的奖励调整模型行为，以减轻幻觉现象。RLFH 还引入了一种基于大型语言模型的事实评估框架，可以在不需要人工干预的情况下验证原子事实的真实性和有用性。在 HotpotQA、SQuADv2 和传记基准测试上的实验显示，RLFH 可以平衡大型语言模型在生成过程中使用内部知识的程度，从而消除了幻觉行为。

Jun, 2024

使用事实增强的 RLHF 对齐大型多模型

通过使用加强学习从人类反馈中获取的方法，我们提出了基于事实增强的视觉语言对齐算法，以解决大多模态模型中的模态不匹配问题，并在实际场景中取得了显著的改进。

Sep, 2023

利用强化学习从 AI 反馈中优化大型多模态视频模型

大型语言模型对视频大型多模型的发展产生了影响。我们提出了一种新的多模态智能系统对齐策略，称为从 AI 反馈中的强化学习，通过提供详细的视频描述来丰富视频内容的理解，以改进视频和文本内容的对齐效果。我们的方法 VLM-RLAIF 在多种视频基准测试中表现出卓越的性能，超过了现有的方法，包括 SFT 模型。我们致力于开源我们的代码、模型和数据集，以促进该领域的进一步研究。

Feb, 2024

RLAIF-V：通过开源 AI 反馈对鲁棒性超级 GPT-4V 进行 MLLM 对齐

通过使用反馈学习降低多模态大型语言模型（MLLMs）的错觉，该研究引入了 RLAIF-V 框架，利用高质量反馈数据和在线反馈学习算法，从而提高模型的可信度，并在多个评估中展示了其优越性。

May, 2024

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

ViGoR: 用细粒度的奖励建模提高大型视觉语言模型的视觉关联能力

通过细粒度的奖励建模，ViGoR 框架显著提高了大型视觉语言模型在视觉 grounding 上的效果，该方法使用较便宜的人工评估和自动化方法，有效地减少了视觉输入的不准确性问题，并构建了一个用于验证视觉 grounding 能力的全面且具有挑战性的数据集。

Feb, 2024