Jan, 2025

InternLM-XComposer2.5-奖励:一种简单而有效的多模态奖励模型

TL;DR本研究针对大型视觉语言模型(LVLM)在视觉理解中偶尔产生错误输出的问题,提出了InternLM-XComposer2.5-奖励(IXC-2.5-Reward),一款简单有效的多模态奖励模型。通过构建高质量的多模态偏好语料库,IXC-2.5-Reward在最新的多模态奖励模型基准上表现出色,并在文本奖励模型基准上也显示出竞争力,为强化学习训练提供了可靠的监督信号,具有显著的应用前景。