MMJan, 2022

MVPTR: 多阶段学习的视觉语言预训练中的多级语义对齐

TL;DR本文提出了一种基于多层语义对齐的视觉语言预训练(MVPTR)方法,通过内部多层次表示学习和不同粒度的跨模态语义对齐任务来学习概念表示,强调多模态、多层次的学习能够协同促进表示学习。