多模态模型合并的实证研究

Apr, 2023

An Empirical Study of Multimodal Model Merging

Yi-Lin Sung, Linjie Li, Kevin Lin, Zhe Gan, Mohit Bansal...

TL;DR本论文探讨了如何将不同模态的 transformer 模型融合成参数有效的多模态结构，通过综合实验分析了融合的关键因素，提出了一个有效的训练方法。

Abstract

model merging (e.g., via interpolation or task arithmetic) fuses multiple models trained on different tasks to generate a multi-task solution. The technique has been proven successful in previous studies, where t

model merging multi-task solution multimodal setup transformers parameter-efficiency

发现论文，激发创造

通过权重融合的专家组混合合并多任务模型

将各种在不同任务上训练的基于 Transformer 的专用模型合并为一个统一的模型，可以同时执行所有任务，通过识别并分离共享知识和任务特定知识，并动态地集成它们，可以在很大程度上减轻参数干扰问题。

Feb, 2024

双子融合：模型融合中的模块专长的动态整合

在大型语言模型时代，模型合并是将多个特定任务模型合并为一个多任务模型的有希望的方法，但面临着不同模型之间的干扰和测试期间的异构数据等两个挑战。我们提出了 Twin-Merging 方法，它模块化知识为共享和专属组件，并在输入的基础上动态地合并共享和任务特定的知识，从而缩小了合并模型和微调模型之间的性能差距，并提高了对异构数据的适应性。广泛的实验表明了我们方法的有效性，对于判别性任务平均标准化得分提升了 28.34%，在生成性任务上甚至超过了微调模型的上限。

Jun, 2024

AdaMerging：多任务学习的自适应模型融合

本文介绍了一种创新技术称为自适应模型融合（AdaMerging），该方法通过无监督任务算术方案自动学习模型融合的系数，既可以在任务层面上，也可以在层级层面上，而无需依赖原始训练数据。实验结果表明，与当前最先进的任务算术融合方案相比，AdaMerging 在性能上有显著的 11% 改进，并且在应用于未见过的下游任务时表现出更好的泛化能力，同时还显著提高了对数据分布漂移的鲁棒性。

Oct, 2023

多模态 Transformer 改进单模态推理

通过多分支架构和多模态训练，本文提出一种改进单模态模型性能的方法，通过多任务目标，强大的多模态分支将其知识传递给较弱的单模态分支，从而提高了单模态模型的性能。该方法在手势识别、情感识别和情感分析任务上优于传统训练的单模态模型，并观察到优化单模态分支可以改进多模态分支的性能。

Nov, 2023

MergeNet：跨异构模型、任务和模态的知识迁移

本研究主要关注异构知识传输，通过 MergeNet 模型和参数适配器实现跨不同模型结构、任务和模式的知识交互和应用，以及在异构知识传输中取得显著改进的实验结果。

Apr, 2024

一次搞定 —— 用于视频检索的多模态融合 Transformer

本文提出一种基于多模态、模态无关的融合变压器方法，通过交换多个模态之间的信息并将其整合成一个联合的多模态表示，从而获得聚合多模态时态信息的嵌入，可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型，并在四个具有挑战性的基准数据集上评估结果，取得了零 - shot 视频检索和零 - shot 视频行动定位的最新成果。

Dec, 2021

多模态表示学习：演进、预训练及其应用的综述

本综述论文全面介绍了深度学习多模态体系结构的演变和增强，以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务：包括最新的任务特定的深度学习方法，多模态预训练目标，以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。

Feb, 2023

多目标优化：通过多个 LLM 的潜力释放形态时间

介绍了一种通过黑盒多目标优化算法进行大型语言模型合并的新方法，通过自动化配置搜索的过程，使用多个多样化任务的性能估计作为优化目标，以消除不同源模型之间的参数冲突，同时不丢失重要的增量参数，提供了模型合并技术的重要进展，为将多个模型集成为统一的高性能模型提供了强大而易于使用的解决方案。

Jun, 2024

多模态深度学习中的模态组合学习

提出了基于深度神经网络的多模态学习方法，采用乘法结合不同来源的模态信息以提高性能，并通过过滤噪声和处理冲突来采取联合方法，扩展将不仅结合单一来源模态，而是一组混合来源模态，以更好地捕获跨模态信号相关性，取得了在不同领域的三个多模态分类任务中实验结果的改进。

May, 2018

多模态数据自适应融合技术

本研究提出了两种自适应融合网络（Auto-Fusion、GAN-Fusion），通过对不同模态的特征进行有效的上下文建模，在多模态机器翻译和情感识别等任务中取得了比现有方法更好的效果。

Nov, 2019