Mar, 2022
视觉语言预训练的单流多级对齐
Single-Stream Multi-Level Alignment for Vision-Language Pretraining
TL;DR利用对比损失进行的自监督视觉-语言预训练虽然有效,但由于双流体系结构仅在全局层面上对齐图像和文本表示法,因此忽略了细粒度对齐。本文提出了一种单通道体系结构,使用两个新任务在多个层次(即全局、细粒度图块-令牌和概念/语义层次)上对齐图像和语言,实现了更细粒度的对齐和更强大的数据效率,这两个新任务是对称跨模态重建和伪标签关键字预测。