Apr, 2024

跨模态适配器:用于视觉语言模型的参数高效迁移学习方法

TL;DRXMAdapter 是一种跨模态参数高效的适配器方法,通过建立文本和图像的缓存模型,并利用视觉 - 语言双模态信息进行检索以获得推理线索。通过动态调整关联比例实现跨模态融合,解耦不同模态相似性以评估其各自的贡献,并通过适应性调整样本学习强度来增强模型性能。实验结果表明,XMAdapter 在准确性、泛化能力和效率方面明显优于以前的基于适配器的方法。