多模式偏好对齐解决语言模型视觉指导调整的回归
本文介绍了一种新的框架,利用详细的视频字幕作为视频内容的代理,使语言模型能够将此信息作为支持证据,用于评分视频问答(QA)预测,并通过直接将视频帧作为输入的 OpenAI GPT-4V 模型的奖励机制来展示我们的方法与之间的稳健一致性。此外,我们还表明通过直接偏好优化使用此定制奖励显著改善了视频语言模型在视频 QA 任务上的性能。
Apr, 2024
通过引入偏好调优和自动生成数据的方法 POVID,本研究解决了视觉大语言模型中可能出现的幻觉问题,并通过直接偏好优化的强化学习模型提高了模型性能。
Feb, 2024
通过利用多模态大型语言模型创建 VisionPrefer,我们构建了一个高质量和细粒度的用户偏好数据集,用于指导文本到图像生成模型的训练,该数据集在多个偏好方面捕捉了人类的喜好,并且其性能优于之前的人类偏好度量标准,并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中,是实现与人类偏好更好的对齐的一个有前途的途径。
Apr, 2024
本研究探讨大型视觉语言模型 (LVLMs) 的偏好提取,提高其生成有助于和忠实于视觉上下文的回应能力。通过构建视觉语言反馈 (VLFeedback) 数据集并采用 Direct Preference Optimization(DPO)方法,研究人员实现了 Silkie 模型,其在感知和认知能力方面相对提高了 6.9%和 9.5%,同时在 MMHal-Bench 基准测试中取得了 3.02 的最优成绩,证明 DPO 与 VLFeedback 数据集主要提升了 LVLMs 的细粒度感知和复杂认知能力,相比人工标注的偏好数据集实现了更全面的改进。
Dec, 2023
本研究提出了混合模态适应方法(MMA),它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁,实现图像和语言模型的联合优化,同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型,并在两种场景下进行了实验验证,表明其训练效率和性能竞争力均优于现有多模 LLMs,且具有成为通用聊天机器人的潜力。
May, 2023
通过评估不同情景下的对齐方法性能以及训练规模对其影响,本研究发现对齐方法在较小的训练数据子集中表现最佳,在推理任务中效果有限但在数学问题解决中有显著影响,而使用调整指令的模型对真实性有明显影响,这些发现将推动进一步研究以解决对齐挑战。
Apr, 2024
这篇论文提出了一个新的策略:幻觉感知直接偏好优化(HA-DPO),通过训练模型在给定同一图像的两个回应(一个准确一个幻觉)时倾向于选择非幻觉回应,从而解决了多模式大型语言模型中存在的 “幻觉问题”。研究结果表明,在应用 HA-DPO 策略后,MiniGPT-4 模型的性能得到了显著提升。
Nov, 2023
介绍了 Instruction Document Visual Question Answering(iDocVQA)数据集和 Large Language Document(LLaDoc)模型,用于训练文档分析的语言 - 视觉(LV)模型和文档图像上的预测。
Feb, 2024
通过比较性实验,我们识别出多模态偏好优化中的无条件偏好问题,并提出 mDPO,一种多模态 DPO 目标,通过优化图像偏好来避免只优化语言偏好。同时引入一种奖励锚点,强制奖励对于选择的回答是正面的,从而避免相对偏好优化的内在问题。在两种不同规模的多模态 LLM 和三个广泛使用的基准测试中进行的实验表明,mDPO 在处理多模态偏好优化的无条件偏好问题上是有效的,并在模型性能方面取得了显著改进,尤其是在减少幻觉方面。
Jun, 2024
我们展示了多模态大型语言模型(MLLMs)通过提高数据质量来增强视觉语言表示学习,使用 MLLMs 扩展每个图像的多个标题,通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格,并在图像文本检索中,在微调和零样本设置下分别获得 5.6〜35.0%和 16.8〜46.1%的 R@1 提升,并且我们的零样本结果可与目标数据集上的微调相媲美,鼓励更多对 MLLMs 的多方面使用的探索。
Nov, 2023