CVPRNov, 2021

训练端到端的视觉语言变换器的实证研究

TL;DR该研究展示了一个名为 METER 的多模态端到端 Transformer 框架,研究了如何设计和预训练一个完全基于 Transformer 的视听模型以及它们的性能,通过在多个维度上对模型设计进行分解,并使用预训练的增强模型,达到了相对于基于区域特征的模型更好的性能,即在 VQAv2 测试数据集上取得了 77.64% 的准确率,超过了以前的最优模型,并且在最佳情况下可以达到 80.54%的准确率。