ECCVMay, 2020

幕后揭秘:揭示预训练视觉语言模型的秘密

TL;DR该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言(V+L)方面的应用,通过评估和探索内部机制,提供了关于多模式预训练及其注意力头的启示和指导。