多层次偏好自动化技术在 MLLM 中的应用

May, 2024

多层次偏好自动化技术在 MLLM 中的应用

Automated Multi-level Preference for MLLMs

Mengxi Zhang, Kang Rong

TL;DR通过采用多级偏好（例如优秀、中等、较差）取代二元偏好，我们提出了一种基于增强学习从人类反馈中引导多模态大型语言模型学习优质响应、避免生成错误响应的方案，并设计了自动化多级偏好框架（AMP）、多级直接偏好优化算法（MDPO）以及错觉基准测试 MRHal-Bench，实验证明了我们提出的方法的有效性。

Abstract

Current multimodal large language models (MLLMs) suffer from ``hallucination'', occasionally generating responses that are not grounded in the input images. To tackle this challenge, one promising path is to utilize rei

multimodal large language models reinforcement learning from human feedback multi-level preferences automated multi-level preference (amp) framework hallucination benchmark

发现论文，激发创造

超越幻觉：通过幻觉感知的直接偏好优化增强 LVLMs

这篇论文提出了一个新的策略：幻觉感知直接偏好优化（HA-DPO），通过训练模型在给定同一图像的两个回应（一个准确一个幻觉）时倾向于选择非幻觉回应，从而解决了多模式大型语言模型中存在的 “幻觉问题”。研究结果表明，在应用 HA-DPO 策略后，MiniGPT-4 模型的性能得到了显著提升。

Nov, 2023

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

多模态 LLMs 中的对齐理解：一项全面研究

多模态大语言模型中，偏好对齐是增强模型性能的关键组成部分，但其在多模态大语言模型中的影响相对较少探索。本文独立分析了多模态大语言模型中偏好对齐的各个方面，包括对齐算法、多模态偏好数据集的构建细节以及无偏驱动幻觉采样的引入。实验表明，将离线和在线方法相结合可在某些情况下提高模型性能。

Jul, 2024

通过偏好微调来对齐视觉大型语言模型中的模态

通过引入偏好调优和自动生成数据的方法 POVID，本研究解决了视觉大语言模型中可能出现的幻觉问题，并通过直接偏好优化的强化学习模型提高了模型性能。

Feb, 2024

RLHF-V：通过细粒度纠正人类反馈以实现可信赖的 MLLMs

通过细粒度纠正的人类反馈，RLHF-V 通过行为对齐增强了 Multi-Modal Large Language Models (MLLMs) 的可靠性。通过在自动化和人类评估中进行全面实验，RLHF-V 能够以有希望的数据和计算效率，在五个基准测试中显著降低 MLLM 的错觉率，并达到开放源代码 MLLM 中可靠性方面的最新技术水平。

Dec, 2023

通过多目标奖励建模和专家混合解释性偏好

通过建立一个具有可解释性的绝对评分多目标奖励模型 (ArmoRM) 和一个自动选择最合适奖励目标的门控网络，我们在大型语言模型对齐领域取得了与 GPT-4 评委相比的最先进表现，并接近更大的 Nemotron-4 340B 奖励模型的性能。

Jun, 2024

使用事实增强的 RLHF 对齐大型多模型

通过使用加强学习从人类反馈中获取的方法，我们提出了基于事实增强的视觉语言对齐算法，以解决大多模态模型中的模态不匹配问题，并在实际场景中取得了显著的改进。

Sep, 2023

大型视觉语言模型中的幻觉检测与预防

介绍 M-HalDetect，一个用于训练和评估幻觉检测和预防模型的多模态幻觉检测数据集。使用 Fine-grained Direct Preference Optimization 和拒绝抽样方法，成功减少了幻觉率，为视觉问题回答任务提供了重要的改进。

Aug, 2023

超越人类偏好：通过 LLMs 探索强化学习轨迹的评估与改进

基于偏好的强化学习利用大型语言模型生成自动偏好数据，并通过重构奖励函数来优化强化学习训练，在复杂环境中加速收敛并提高效果。

Jun, 2024

多模态图像幻觉控制：视觉信息的连接

通过引入 M3ID 多模态互信息解码方法对先前训练的视觉语言生成模型进行推理时的增强，能够减少幻觉并提高模型的依赖性，从而减少视觉无依据的回答。

Mar, 2024