May, 2024

面向视觉-语言模型的跨模态向后兼容表示学习

TL;DR本文提出了一种名为“Cross-modal BT (XBT)”的方法,通过引入一个经过预训练的投影模块来解决视觉-语言预训练模型(如CLIP)的向后兼容问题,有效降低了跨模态训练所需的图像-文本对数量并提高了效率,实验结果显示XBT的有效性及其在新VLP模型出现时实现无需回填的升级的潜力。