Oct, 2024
自适应嵌入融合用于高效的视觉-语言调优
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language
Tuning
TL;DR本研究针对视觉-语言模型在硬件资源需求和计算复杂性方面的挑战,提出了一种高效的方法ADEM-VL,采用无参数的交叉注意机制进行多模态融合。通过仅需嵌入视觉特征到语言空间,该方法显著减少了可训练参数数量,提高了训练和推理速度,同时在多个视觉-语言任务中表现优越,展现了其较现有方法更高的准确性和效率。