May, 2024

ColorFoil:大规模视觉与语言模型中色盲调查

TL;DR利用 Transformer 架构,大型图像和语言(V&L)模型在零样本设置中展现出了令人期待的性能。然而,一些研究指出,在处理复杂的语言学和视觉属性时,这些模型的稳健性不足。在这项工作中,我们引入了一个新颖的 V&L 基准测试 ——ColorFoil,通过创建与颜色相关的误导以评估模型对于检测红色、白色、绿色等颜色的感知能力。我们在零样本设置中评估了包括 CLIP、ViLT、GroupViT 和 BridgeTower 等七种最先进的 V&L 模型,并从中得出了有趣的发现。实验评估表明,相比于 CLIP 及其变种和 GroupViT,ViLT 和 BridgeTower 表现出更好的颜色感知能力。而且,基于 CLIP 的模型和 GroupViT 难以区分在人类正常颜色感知能力下具有视觉差异的颜色。