直接优化语言模型奖励的视频大型多模态模型

Apr, 2024

直接优化语言模型奖励的视频大型多模态模型

Direct Preference Optimization of Video Large Multimodal Models from Language Model Reward

Ruohong Zhang, Liangke Gui, Zhiqing Sun, Yihao Feng, Keyang Xu...

TL;DR本文介绍了一种新的框架，利用详细的视频字幕作为视频内容的代理，使语言模型能够将此信息作为支持证据，用于评分视频问答（QA）预测，并通过直接将视频帧作为输入的 OpenAI GPT-4V 模型的奖励机制来展示我们的方法与之间的稳健一致性。此外，我们还表明通过直接偏好优化使用此定制奖励显著改善了视频语言模型在视频 QA 任务上的性能。

Abstract

preference modeling techniques, such as direct preference optimization (DPO), has shown effective in enhancing the generalization abilities of large language model (LLM). However, in tasks involving →

preference modeling techniques direct preference optimization large language model video instruction-following factuality assessment

发现论文，激发创造

多模式偏好对齐解决语言模型视觉指导调整的回归

通过细粒度注释的小型数据集，提出了一种基于蒸馏的多模态对齐模型，修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。

Feb, 2024

mDPO: 多模态大型语言模型的条件偏好优化

通过比较性实验，我们识别出多模态偏好优化中的无条件偏好问题，并提出 mDPO，一种多模态 DPO 目标，通过优化图像偏好来避免只优化语言偏好。同时引入一种奖励锚点，强制奖励对于选择的回答是正面的，从而避免相对偏好优化的内在问题。在两种不同规模的多模态 LLM 和三个广泛使用的基准测试中进行的实验表明，mDPO 在处理多模态偏好优化的无条件偏好问题上是有效的，并在模型性能方面取得了显著改进，尤其是在减少幻觉方面。

Jun, 2024

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为 DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的 RLHF 方法，DPO 不仅表现更好，而且更加稳定和简单。

May, 2023

超越幻觉：通过幻觉感知的直接偏好优化增强 LVLMs

这篇论文提出了一个新的策略：幻觉感知直接偏好优化（HA-DPO），通过训练模型在给定同一图像的两个回应（一个准确一个幻觉）时倾向于选择非幻觉回应，从而解决了多模式大型语言模型中存在的 “幻觉问题”。研究结果表明，在应用 HA-DPO 策略后，MiniGPT-4 模型的性能得到了显著提升。

Nov, 2023

使用 DPO 隐式奖励进行自助式语言模型训练

使用直接偏好优化（DPO）的隐式奖励模型，我们提出了自对齐方法，命名为 DPO 隐式奖励自对齐（DICE），以改进大语言模型的对齐性能和质量。

Jun, 2024

混合偏好优化：通过数据选择和更好的参考模型进行强化学习

本文研究了大规模语言模型（LLMs）对齐的两种主要方法：强化学习与人类反馈（RLHF）以及基于对比学习的直接偏好优化（DPO）。通过分析 RLHF 和 DPO 的稳定性和鲁棒性，我们提出了一种新方法 MPO（混合偏好优化），该方法减轻了两种方法的缺点。我们提出了一个两阶段的训练过程：首先在一个简单的数据集上对 DPO 进行训练，然后在一个具有 DPO 模型作为参考模型的困难集上进行 RLHF。实验在两个公开的对齐数据集上进行，即 HH-RLHF 和 TLDR，展示了 MPO 的有效性，无论是在 GPT4 上还是人类评估上。

Mar, 2024

通过直接偏好对齐提升量化大型语言模型的对话能力

大型语言模型（LLMs）的快速发展使它们转变为可以理解上下文细微差别并生成相关句子的对话聊天机器人，通过高级技术如调整指令和通过人类反馈进行强化学习（RLHF）紧密地反映人类价值观。我们提出了一种新颖的偏好对齐方法，即量化感知的直接偏好优化（QDPO），通过将量化的 LLMs 与其完整精度的对应物对齐，从而提升对话能力。在使用不同语言的两个经过指令调整的 LLMs 上评估时，QDPO 在提高对话能力方面表现出优越性，相比已确立的后训练量化（PTQ）和知识蒸馏微调技术，标志着在开发高效且有效的对话式 LLMs 方面迈出了重要的一步。

Jul, 2024

混合偏好优化：用辅助目标增强直接偏好优化

大型语言模型的对齐问题是一个复杂的挑战，本文提出了混合偏好优化（HPO）方法，通过结合直接优化偏好和强化学习的方法实现了对用户偏好和辅助设计目标的有效泛化，同时在各种具有挑战性的基准和模型规模上保持了对齐性能。

May, 2024

通过奖励模型精华提高偏好鲁棒性优化

通过预训练、直接偏好优化和蒸馏方法，改进了离线对齐过程中偏好数据分布转移的鲁棒性，同时保留了简单的监督学习性质。

May, 2024

多模态 LLMs 中的对齐理解：一项全面研究

多模态大语言模型中，偏好对齐是增强模型性能的关键组成部分，但其在多模态大语言模型中的影响相对较少探索。本文独立分析了多模态大语言模型中偏好对齐的各个方面，包括对齐算法、多模态偏好数据集的构建细节以及无偏驱动幻觉采样的引入。实验表明，将离线和在线方法相结合可在某些情况下提高模型性能。

Jul, 2024