ACLMar, 2022
UNIMO-2: 端到端的统一视觉语言基础学习
UNIMO-2: End-to-End Unified Vision-Language Grounded Learning
Wei Li, Can Gao, Guocheng Niu, Xinyan Xiao, Hao Liu...
TL;DR本文提出了一种联合学习视觉、文本和不对齐图像和文本语料库之间的符号对齐的端到端 UNIMO-2 统一模态预训练框架,采用 “基础学习” 方案,成功地提高了一些跨模态任务的性能与视觉和文本语义对齐。