超越幻觉：通过幻觉感知的直接偏好优化增强 LVLMs

Nov, 2023

超越幻觉：通过幻觉感知的直接偏好优化增强 LVLMs

Beyond Hallucinations: Enhancing LVLMs through Hallucination-Aware Direct Preference Optimization

Zhiyuan Zhao, Bin Wang, Linke Ouyang, Xiaoyi Dong, Jiaqi Wang...

TL;DR这篇论文提出了一个新的策略：幻觉感知直接偏好优化（HA-DPO），通过训练模型在给定同一图像的两个回应（一个准确一个幻觉）时倾向于选择非幻觉回应，从而解决了多模式大型语言模型中存在的 “幻觉问题”。研究结果表明，在应用 HA-DPO 策略后，MiniGPT-4 模型的性能得到了显著提升。

Abstract

multimodal large language models have made significant advancements in recent years, yet they still suffer from a common issue known as the "hallucination problem" where the models generate textual descriptions that contain inaccurate or non-existent content from the image. To address

multimodal large language models hallucination problem hallucination-aware direct preference optimization (ha-dpo)preference selection issue minigpt-4 model

发现论文，激发创造

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

直接偏好优化用于抑制放大的先前考试在放射学报告生成中

利用直接优化偏好的方法，我们对预训练的视觉语言生成模型进行修改，以抑制不需要的生成行为，特别是在胸部 X 光报告生成中抑制往期检查的幻觉，从而在保持模型性能的同时，减少了 3.2-4.8 倍的幻觉行为。这项工作是我们所知的首次将直接优化偏好应用于医学视觉语言生成模型，为在保持整体临床准确性的同时抑制问题行为提供了一种数据和计算高效的方法。

Jun, 2024

通过偏好微调来对齐视觉大型语言模型中的模态

通过引入偏好调优和自动生成数据的方法 POVID，本研究解决了视觉大语言模型中可能出现的幻觉问题，并通过直接偏好优化的强化学习模型提高了模型性能。

Feb, 2024

多模态 LLMs 中的对齐理解：一项全面研究

多模态大语言模型中，偏好对齐是增强模型性能的关键组成部分，但其在多模态大语言模型中的影响相对较少探索。本文独立分析了多模态大语言模型中偏好对齐的各个方面，包括对齐算法、多模态偏好数据集的构建细节以及无偏驱动幻觉采样的引入。实验表明，将离线和在线方法相结合可在某些情况下提高模型性能。

Jul, 2024

多模态图像幻觉控制：视觉信息的连接

通过引入 M3ID 多模态互信息解码方法对先前训练的视觉语言生成模型进行推理时的增强，能够减少幻觉并提高模型的依赖性，从而减少视觉无依据的回答。

Mar, 2024

通过精细的人工智能反馈检测和缓解大型视觉语言模型中的幻觉

通过细粒度人工智能反馈，检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集，进一步区分幻觉的严重程度，将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。

Apr, 2024

解决大型语言模型中的主题粒度和虚构问题用于主题建模

利用直接偏好优化（Direct Preference Optimization）对开源大型语言模型（Large Language Models）进行微调，以解决主题粒度和虚构主题的问题，实现产生更连贯、相关和精确的主题，并减少虚构主题的数量。

May, 2024

通过诱导式优化减轻大型视觉语言模型中的幻觉

利用 Contrary Bradley-Terry Model 进行优化，引入 Hallucination-Induced Optimization 策略，提高 Large Visual Language Models 处理视觉对比解码中的幻觉问题的效果。

May, 2024

多层次偏好自动化技术在 MLLM 中的应用

通过采用多级偏好（例如优秀、中等、较差）取代二元偏好，我们提出了一种基于增强学习从人类反馈中引导多模态大型语言模型学习优质响应、避免生成错误响应的方案，并设计了自动化多级偏好框架（AMP）、多级直接偏好优化算法（MDPO）以及错觉基准测试 MRHal-Bench，实验证明了我们提出的方法的有效性。

May, 2024

直接优化语言模型奖励的视频大型多模态模型

本文介绍了一种新的框架，利用详细的视频字幕作为视频内容的代理，使语言模型能够将此信息作为支持证据，用于评分视频问答（QA）预测，并通过直接将视频帧作为输入的 OpenAI GPT-4V 模型的奖励机制来展示我们的方法与之间的稳健一致性。此外，我们还表明通过直接偏好优化使用此定制奖励显著改善了视频语言模型在视频 QA 任务上的性能。

Apr, 2024