Feb, 2024

Finer: 大规模视觉语言模型中细粒度视觉概念识别的研究与增强

TL;DR最近在指导的大型视觉语言模型方面取得的进展,使得模型能够轻松生成高层次的基于图像的解释。然而,我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷,并且我们提出了一个多粒度属性为中心的评估基准,用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。