Mar, 2021
SemVLP: 多层次语义对齐的视觉语言预训练
SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple Levels
Chenliang Li, Ming Yan, Haiyang Xu, Fuli Luo, Wei Wang...
TL;DR本文提出 SemVLP 预训练方法,通过单流预训练和双流预训练相结合,使用共享 Transformer 网络和可插入的跨模态注意模块,在不同的语义层次上对图像和文本进行联合对齐,以对齐跨模态表示,实验表明该方法可对齐不同语义粒度。