Aug, 2019

LXMERT:使用Transformers学习跨模态编码器表示

TL;DR本文介绍了使用LXMERT框架进行视觉-语言推理的方法。该框架包括一个基于Transformer模型的对象关系编码器、语言编码器和跨模态编码器,并通过大量图像-句子对进行预训练,以学习在这两个模态之间的关系。通过微调这个预训练模型,在两个视觉问答数据集上取得了最先进的结果,并在NLVR2数据集上将之前最好的结果提高了22%。