Mar, 2024

如果 CLIP 能说话:通过其首选概念描述理解视觉 - 语言模型的表示

TL;DR我们利用强化学习的方法提出了一种新颖的方法 ——Extract and Explore (EX2),用于表征 Vision-Language Model (VLM) 的重要文本特征,并发现 VLM 在表示视觉概念时显著依赖于非视觉属性。