Apr, 2024

预训练的视觉语言模型学习可发现的视觉概念

TL;DR视觉语言模型能够预测图像中的视觉概念,例如 'brown'(颜色)和'spiky'(纹理),这种免费学习的能力可以广泛应用于神经符号推理或人可解释的对象分类。通过定义和评估视觉概念的新策略,我们证实预训练的视觉语言模型通过文字提示可以提取出准确全面的视觉概念,这一概念发现与学习框架能够为多样化的视觉识别数据集提供准确的描述。