ACLMar, 2022

UNIMO-2: 端到端的统一视觉语言基础学习

TL;DR本文提出了一种联合学习视觉、文本和不对齐图像和文本语料库之间的符号对齐的端到端 UNIMO-2 统一模态预训练框架,采用 “基础学习” 方案,成功地提高了一些跨模态任务的性能与视觉和文本语义对齐。