Jan, 2021

多模态转换器中数据、注意力和损失的解耦

TL;DR本文章论述通过训练多模态 transformer 模型,其在语言和视觉任务上的表现证明了其可以学习到丰富的视觉 - 语言表达。其着重于零样本图像检索任务,并研究了三个重要因素:预训练数据、注意机制和损失函数,以评估其对于模型性能的影响。