Jun, 2024

非洲还是欧洲的燕子?针对细粒度物体分类的大型视觉语言模型基准测试

TL;DR最近大型视觉 - 语言模型(LVLMs)在诸多图像理解和推理任务上表现出令人印象深刻的能力。然而,细粒度对象分类任务(例如,区分动物物种)的研究尚不足够,在下游任务中的重要性不够凸显。我们通过创建一个名为 FOCI(Fine-grained Object Classification)的难度较高的多项选择基准来弥补这一评估空白,该基准通过从现有的对象分类数据集中进行采样获得,并且通过 CLIP 模型挖掘负面标签以保持分类难度。FOCI 基准补充了五个流行的分类数据集,以及从 ImageNet-21k 中选择的四个领域特定的子集。我们对 12 个公开的 LVLMs 模型在 FOCI 基准上进行了评估,并展示了它对于已有的图像理解和推理基准来说是一项补充技能。关键是,CLIP 模型的性能明显优于 LVLMs 模型。由于 LVLMs 的图像编码器来自这些 CLIP 模型,这暗示编码器与 LLM 之间在细粒度对象区分方面存在不足的对齐,需要使用更多细粒度注释的(预)训练数据。我们在 https://github.com/gregor-ge/FOCI-Benchmark 上发布了我们的代码。