校准的自我奖励视觉语言模型
使用预训练的视觉语言模型作为无样本奖励模型以指定任务,通过单个句子文本提示训练 MuJoCo 仿真人完成复杂任务,表明未来的视觉语言模型将在广泛的强化学习应用中成为更加有用的奖励模型。
Oct, 2023
通过引入更详细的视觉注释和更具区分性的视觉模型来提高大型视觉语言模型的训练,使其能够生成更精确的回答,减少幻觉;此外,提出了新的评估基准 RAH-Bench 分为三种不同的幻觉类型,与原始 LLaVA 相比,我们的方法在该基准下实现了 +8.4% 的改进,并在其他模型上取得了广泛的性能提升。
Nov, 2023
通过引入偏好调优和自动生成数据的方法 POVID,本研究解决了视觉大语言模型中可能出现的幻觉问题,并通过直接偏好优化的强化学习模型提高了模型性能。
Feb, 2024
在计算机视觉和自然语言处理领域,本研究重要不可或缺的工具是大型视觉 - 语言模型(LVLMs),它们能够根据视觉输入生成文本描述。然而,我们的调查发现生成的内容存在显著的偏见,主要受到底层大型语言模型(LLMs)的影响而非输入图像。为了纠正这些偏见并将模型的关注重点转向视觉信息,我们提出了两种简单且无需训练的策略。首先,对于分类或多项选择问题回答(QA)等任务,我们通过仿射变换提出了一个 “校准” 步骤来调整输出分布。这种 “事后去偏” 的方法确保了当图像不存在时每个答案都具有均匀的分数,作为一种有效的正则化技术以减轻 LLM 先验的影响。对于更复杂的开放式生成任务,我们将这种方法扩展为 “去偏抽样”,借鉴了对比解码方法的灵感。此外,我们的研究还揭示了 LVLMs 在不同解码配置下的不稳定性,通过对不同设置的系统性探索,我们显著提高了性能,超过了现有评估结果,并对公平性提出了关切。综合实验证明了我们提出的策略在减轻偏见方面的有效性。这些策略不仅有助于减少虚幻现象,还有助于生成更有用和准确的插图。
Mar, 2024
通过自我改进提高视觉与语言模态的对齐性的 SIMA 框架在 14 个幻觉和综合基准测试中展示了改进模型性能和优越的模态对齐,超过了先前的方法。
May, 2024
利用预训练的视觉语言模型(VLMs)来支持强化学习代理的训练,提出了一种名为 VLM-CaR 的框架,通过代码生成从 VLMs 生成密集奖励函数,从而大大减轻了直接查询 VLM 的计算负担,证明了该方法在各种离散和连续环境中生成的密集奖励非常准确,并且可以比原始的稀疏环境奖励更有效地训练强化学习策略。
Feb, 2024
使用视觉 - 语言模型(VLMs)作为强化学习代理的奖励来源的可行性研究,展示了从 CLIP 模型家族中得到各种语言目标的视觉成就奖励,并用于训练能够实现各种语言目标的 RL 代理,通过两个不同的视觉领域展示了这种方法,并呈现了更大的 VLMs 趋势,以更准确的视觉目标成就奖励,从而产生更有能力的 RL 代理。
Dec, 2023
通过综合调查,我们分析了大型视觉语言模型(LVLMs)中的幻觉问题,以建立一个概览并为未来的缓解工作提供帮助。调查包括对 LVLMs 中幻觉的概念澄清、幻觉症状的多样性及存在的挑战、以及评估 LVLMs 幻觉的基准和方法论的概述。此外,我们深入研究了这些幻觉的根本原因,包括对训练数据和模型组件的认知。我们还对缓解幻觉的现有方法进行了批判性回顾,并讨论了关于 LVLMs 中幻觉的未解问题和未来研究方向。
Feb, 2024
通过细粒度人工智能反馈,检测和减轻大规模视觉语言模型中的幻觉现象。通过生成小规模句子级幻觉注释数据集和使用检测 - 重写流程来自动构建偏好数据集,进一步区分幻觉的严重程度,将幻觉严重程度纳入偏好学习来减轻大规模视觉语言模型中的幻觉。广泛实验证明了我们方法的有效性。
Apr, 2024
通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐,我们提出了 CG-VLM 模型,有效地实现了视觉 - 语言的对齐,成为一种高效的指令学习器。
Nov, 2023