Feb, 2024
ViGoR: 用细粒度的奖励建模提高大型视觉语言模型的视觉关联能力
ViGoR: Improving Visual Grounding of Large Vision Language Models with
Fine-Grained Reward Modeling
TL;DR通过细粒度的奖励建模,ViGoR框架显著提高了大型视觉语言模型在视觉 grounding 上的效果,该方法使用较便宜的人工评估和自动化方法,有效地减少了视觉输入的不准确性问题,并构建了一个用于验证视觉 grounding 能力的全面且具有挑战性的数据集。