May, 2024

MM-Lego:具有最小微调的模块化生物医学多模态模型

TL;DR本研究提出了多模态 Lego(MM-Lego)框架,它是一个模块化和通用的融合和模型合并方法,可以将任何一组编码器转化为具有竞争力的多模态模型,不需要或仅需要进行最小的微调。通过引入对单模态编码器的包装,MM-Lego 强制实施模态之间的轻量级维度假设,并通过在频域学习特征来协调它们的表示,以使模型合并时干扰最小。实验证明,MM-Lego 可以作为模型合并的方法,达到了与端到端融合模型相媲美的性能,而无需进行任何微调;它可以在任何单模态编码器上运行;并且通过最小的微调,可以在六个基准多模态生物医学任务上实现最先进的结果。