Mar, 2021

SemVLP: 多层次语义对齐的视觉语言预训练

TL;DR本文提出 SemVLP 预训练方法,通过单流预训练和双流预训练相结合,使用共享 Transformer 网络和可插入的跨模态注意模块,在不同的语义层次上对图像和文本进行联合对齐,以对齐跨模态表示,实验表明该方法可对齐不同语义粒度。