Jun, 2022

BridgeTower: 视觉-语言表示学习中编码器之间桥梁的构建

TL;DR本文提出了一种名为BridgeTower的Vision-Language (VL) 模型,通过引入多个桥接层, 利用来自预训练Uni-modal编码器的不同语义级别的视觉和文本表示实现了有效的从下到上的跨模态对齐和融合,在仅使用 4M 张图像的情况下,BridgeTower 在各种下游视觉-语言任务中实现了最先进的性能。