May, 2024

通过视觉表示精炼视觉 - 语言模型中的偏差感知

TL;DR通过使用简单的线性探测器,本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征,结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响,实证结果表明相比文本嵌入,依赖于 CLIP 的视觉表示更为实用,可克服内置偏见。