Jun, 2024

非洲还是欧洲的燕子?针对细粒度物体分类的大型视觉语言模型基准测试

TL;DR最近大型视觉-语言模型(LVLMs)在诸多图像理解和推理任务上表现出令人印象深刻的能力。然而,细粒度对象分类任务(例如,区分动物物种)的研究尚不足够,在下游任务中的重要性不够凸显。我们通过创建一个名为FOCI(Fine-grained Object Classification)的难度较高的多项选择基准来弥补这一评估空白,该基准通过从现有的对象分类数据集中进行采样获得,并且通过CLIP模型挖掘负面标签以保持分类难度。FOCI基准补充了五个流行的分类数据集,以及从ImageNet-21k中选择的四个领域特定的子集。我们对12个公开的LVLMs模型在FOCI基准上进行了评估,并展示了它对于已有的图像理解和推理基准来说是一项补充技能。关键是,CLIP模型的性能明显优于LVLMs模型。由于LVLMs的图像编码器来自这些CLIP模型,这暗示编码器与LLM之间在细粒度对象区分方面存在不足的对齐,需要使用更多细粒度注释的(预)训练数据。我们在https://github.com/gregor-ge/FOCI-Benchmark上发布了我们的代码。