Sep, 2023

多路适配器:为可扩展的图像 - 文本检索适应大规模多模态模型

TL;DR通过引入 Multiway-Adapter 框架和 'Alignment Enhancer' 来深化多模态对齐,我们提出了一种高效的适应路径,使得大型多模态模型具备高度的可迁移性,同时实现了 57% 的微调时间缩减,并在零样本图像 - 文本检索任务中表现出优异的性能。