EMNLPSep, 2021
视觉与语言还是视觉为语言?多模态 Transformer 中的跨模态影响
Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in Multimodal Transformers
Stella Frank, Emanuele Bugliarello, Desmond Elliott
TL;DR研究了预训练的视觉和语言 BERT 学习跨模态信息组合表示的方法,通过交叉模态输入消融来评估这些模型集成跨模态信息的程度,并发现最近提出的模型在处理缺失视觉信息的情况下比处理缺失文本信息的情况更难,表明这些模型不是对称的跨模态。