Jan, 2024

视觉-语言模型中被忽视的尾部

TL;DR视觉语言模型(VLM)在零射击识别方面表现出色,但在视觉概念上的性能相差巨大。我们的工作首次尝试通过分析预训练文本来测量概念频率,并提出了一种减轻VLM在零射击识别中不平衡性能的方法REtrieval-Augmented Learning REAL。