ACLNov, 2020
多模态预训练揭示:视觉和语言 BERT 的元分析和统一框架
Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs
Emanuele Bugliarello, Ryan Cotterell, Naoaki Okazaki, Desmond Elliott
TL;DR本文探讨了计算机视觉和自然语言处理中预训练方法的标准方法学习经验,分别采用单流和双流编码器进行归纳分析。我们就五种视觉与语言 BERT 的差异进行经验研究,揭示出预训练数据和超参数是这些异常壮观的模型之间不同的原因,同时将两类网络统一在同一理论框架之下,指出 embedding layer 在这些模型中具有至关重要的作用。