双倍劣势：预训练视觉与语言模型中的偏见复合

Apr, 2021

双倍劣势：预训练视觉与语言模型中的偏见复合

Worst of Both Worlds: Biases Compound in Pre-trained Vision-and-Language Models

Tejas Srinivasan, Yonatan Bisk

TL;DR该研究扩展了文本偏差分析方法，以调查多模式语言模型，并分析了这些模型学习的内部和跨模态关联和偏见。具体而言，该研究表明VL-BERT展示出性别偏见，往往更喜欢强化刻板印象而不是忠实描述视觉场景。

Abstract

Numerous works have analyzed biases in vision and pre-trained language models individually - however, less attention has been paid to how these biases interact in multimodal settings. This work extends text-based