非洲还是欧洲的燕子？针对细粒度物体分类的大型视觉语言模型基准测试

Jun, 2024

非洲还是欧洲的燕子？针对细粒度物体分类的大型视觉语言模型基准测试

African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification

Gregor Geigle, Radu Timofte, Goran Glavaš

TL;DR最近大型视觉-语言模型（LVLMs）在诸多图像理解和推理任务上表现出令人印象深刻的能力。然而，细粒度对象分类任务（例如，区分动物物种）的研究尚不足够，在下游任务中的重要性不够凸显。我们通过创建一个名为FOCI（Fine-grained Object Classification）的难度较高的多项选择基准来弥补这一评估空白，该基准通过从现有的对象分类数据集中进行采样获得，并且通过CLIP模型挖掘负面标签以保持分类难度。FOCI基准补充了五个流行的分类数据集，以及从ImageNet-21k中选择的四个领域特定的子集。我们对12个公开的LVLMs模型在FOCI基准上进行了评估，并展示了它对于已有的图像理解和推理基准来说是一项补充技能。关键是，CLIP模型的性能明显优于LVLMs模型。由于LVLMs的图像编码器来自这些CLIP模型，这暗示编码器与LLM之间在细粒度对象区分方面存在不足的对齐，需要使用更多细粒度注释的（预）训练数据。我们在https://github.com/gregor-ge/FOCI-Benchmark上发布了我们的代码。

Abstract

Recent large vision-language models (LVLMs) demonstrate impressive abilities on numerous image understanding and reasoning tasks. The task of fine-grained object classification (e.g., distinction between \textit{