通过偏好微调来对齐视觉大型语言模型中的模态

Feb, 2024

通过偏好微调来对齐视觉大型语言模型中的模态

Aligning Modalities in Vision Large Language Models via Preference Fine-tuning

Yiyang Zhou, Chenhang Cui, Rafael Rafailov, Chelsea Finn, Huaxiu Yao

TL;DR通过引入偏好调优和自动生成数据的方法 POVID，本研究解决了视觉大语言模型中可能出现的幻觉问题，并通过直接偏好优化的强化学习模型提高了模型性能。

Abstract

Instruction-following vision large language models (VLLMs) have achieved significant progress recently on a variety of tasks. These approaches merge strong pre-trained vision models and large language models (LLMs). Since these components are trained separately, the learned representat

vision large language models hallucination problem preference tuning povid direct preference optimization

发现论文，激发创造

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

超越幻觉：通过幻觉感知的直接偏好优化增强 LVLMs

这篇论文提出了一个新的策略：幻觉感知直接偏好优化（HA-DPO），通过训练模型在给定同一图像的两个回应（一个准确一个幻觉）时倾向于选择非幻觉回应，从而解决了多模式大型语言模型中存在的 “幻觉问题”。研究结果表明，在应用 HA-DPO 策略后，MiniGPT-4 模型的性能得到了显著提升。

Nov, 2023

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

多模式偏好对齐解决语言模型视觉指导调整的回归

通过细粒度注释的小型数据集，提出了一种基于蒸馏的多模态对齐模型，修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。

Feb, 2024

FGAIF：用细粒度 AI 反馈对齐大规模的视觉语言模型

通过 Fine-Grained 人工智能反馈以及基于强化学习将多模态对齐，解决了 Large Vision-Language Models 中的幻觉问题，提高了模型的性能。

Apr, 2024

大规模多模型对齐与鲁棒指令调整

通过引入大规模的视觉指导优化数据集 LRV-Instruction 以及使用 GPT4 辅助视觉指导评估方法（GAVIE）来评估 LMMs 的视觉指导优化，本研究探究了 LMMs 的幻觉问题，并成功地缓解了幻觉并提高了该模型的性能。

Jun, 2023

多模态大语言模型是文本到图像生成的人类对齐标注器

通过利用多模态大型语言模型创建 VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，是实现与人类偏好更好的对齐的一个有前途的途径。

Apr, 2024

自监督视觉偏好对齐

本研究首次尝试了视觉语言模型（VLMs）中的无监督偏好对齐，通过对原始和增强图像对生成选择和拒绝响应，并进行直接偏好优化来实现。通过合理设计图像输入的增强方式，诱导 VLM 生成虚假但困难的负面响应，有助于模型从中学习并生成更强大和健壮的答案。整个流程不再依赖于 GPT4 的监督或人工参与对齐，具有高效和简洁的代码。通过仅使用 8k 个随机采样的无监督数据，在复杂推理的 LLaVA-Bench 上相对于 GPT-4 达到 90％的相对分数，并在复杂多模态基准 MM-Vet 上提高 LLaVA-7B/13B 的分数 6.7％/5.6％。可视化结果显示它对齐用户意图的能力得到了改善。作者进行了一系列消融实验以揭示该方法的潜在机制，并表明其进一步扩展的潜力。代码将会提供。

Apr, 2024

为大型视觉语言模型提供定向指导调节，减轻幻觉

针对当前大型视觉 - 语言模型在生成回复和相应图像之间存在的不一致问题，本研究提出了一种名为 DFTG 的有针对性的指导数据生成框架，通过诊断模型的响应和图像，生成有针对性的指导数据以减轻幻觉问题。实验结果表明，与先前的数据集相比，我们的方法生成的有针对性指导数据在减轻幻觉方面更加有效。

Apr, 2024

多模态图像幻觉控制：视觉信息的连接

通过引入 M3ID 多模态互信息解码方法对先前训练的视觉语言生成模型进行推理时的增强，能够减少幻觉并提高模型的依赖性，从而减少视觉无依据的回答。

Mar, 2024