Apr, 2024

直接优化语言模型奖励的视频大型多模态模型

TL;DR本文介绍了一种新的框架,利用详细的视频字幕作为视频内容的代理,使语言模型能够将此信息作为支持证据,用于评分视频问答(QA)预测,并通过直接将视频帧作为输入的 OpenAI GPT-4V 模型的奖励机制来展示我们的方法与之间的稳健一致性。此外,我们还表明通过直接偏好优化使用此定制奖励显著改善了视频语言模型在视频 QA 任务上的性能。