ICCVAug, 2023

RLIPv2:关系式语言 - 图像预训练的快速扩展

TL;DR提出了一个快速收敛的模型,通过引入不对称语言 - 图像融合机制,以稀疏的语言编码层促进更早和更深的门控跨模态融合,从而实现对大规模伪标记场景图数据的关系预训练的扩展。进行了大量实验,表明该模型在三个基准测试中均取得了最先进的性能。