May, 2023

UNIMO-3:多粒度视觉语言交互表示学习

TL;DR本研究提出了 UNIMO-3 模型,旨在解决现有视觉 - 语言预训练模型中的跨模态交互问题,并能同时学习多模态的在层交互和跨层交互,实验结果显示该模型达到了最新工作的最好结果。