ECCVJul, 2022

从共享对比语言图像预训练中学习视觉表征

TL;DR本篇研究探讨使用 transformer 模型进行多模态对比预训练的方法,发现优于原始的 CLIP 方法,并且支持参数量的降低,通过共享参数,实现了不同模态之间的信息交互和相近语义结构的转移。