May, 2023
UNIMO-3:多粒度视觉语言交互表示学习
UNIMO-3: Multi-granularity Interaction for Vision-Language Representation Learning
Hao Yang, Can Gao, Hao Líu, Xinyan Xiao, Yanyan Zhao...
TL;DR本研究提出了 UNIMO-3 模型,旨在解决现有视觉 - 语言预训练模型中的跨模态交互问题,并能同时学习多模态的在层交互和跨层交互,实验结果显示该模型达到了最新工作的最好结果。