Feb, 2023

在多模态语言模型评估中控制刻板印象

TL;DR我们提出了一种方法和设计了两个基准集,以衡量语言和视觉语言模型在有或没有刻板印象的情况下使用视觉信号的程度。我们的结果表明,多模型之间存在显着差异:最近基于 Transformer 的 FLAVA 似乎比早期基于 CNN 的模型(如 VisualBERT 和 LXMERT)更敏感于图像的选择,而且受刻板印象的影响较小。这种效果在控制型环境中比传统的评估中更容易觉察,我们不知道模型是依赖于刻板印象还是视觉信号。