关键词fine-grained reward modeling
搜索结果 - 2
- ViGoR: 用细粒度的奖励建模提高大型视觉语言模型的视觉关联能力
通过细粒度的奖励建模,ViGoR 框架显著提高了大型视觉语言模型在视觉 grounding 上的效果,该方法使用较便宜的人工评估和自动化方法,有效地减少了视觉输入的不准确性问题,并构建了一个用于验证视觉 grounding 能力的全面且具有 - 逐步强化
通过利用人类反馈的强化学习方法,本研究探索了两种奖励机制:基于结果监督的奖励模型和基于过程监督的奖励模型,以优化语言模型的逻辑推理能力,结果显示基于过程监督的方法可以提高简单数学推理的准确性,但意外地降低了复杂任务的表现,并且认为奖励聚合函