ECCVMar, 2022

视觉语言预训练的单流多级对齐

TL;DR利用对比损失进行的自监督视觉 - 语言预训练虽然有效,但由于双流体系结构仅在全局层面上对齐图像和文本表示法,因此忽略了细粒度对齐。本文提出了一种单通道体系结构,使用两个新任务在多个层次(即全局、细粒度图块 - 令牌和概念 / 语义层次)上对齐图像和语言,实现了更细粒度的对齐和更强大的数据效率,这两个新任务是对称跨模态重建和伪标签关键字预测。