May, 2023

精细视觉语言理解进展的衡量

TL;DR本文通过对四个具有挑战性的细粒度基准进行实验研究,发现X-VLM是最好的模型,同时强调新的损失函数和丰富的数据源对于学习细粒度技能非常重要。