- 通过权重融合的专家组混合合并多任务模型
将各种在不同任务上训练的基于 Transformer 的专用模型合并为一个统一的模型,可以同时执行所有任务,通过识别并分离共享知识和任务特定知识,并动态地集成它们,可以在很大程度上减轻参数干扰问题。
- MMEvoMerge: 大规模语言模型的神经进化
利用模型合并进行权重交叉,利用微调进行权重突变,EvoMerge 引入了一种系统性的大语言模型训练和合并方法,旨在推动模型超越传统微调的限制。
- 融合不同任务和领域的视觉 Transformer
该研究旨在将训练在不同任务或领域的多个 Vision Transformers (ViTs) 合并成一个统一的模型,以保持每个任务或领域的良好性能,通过提出一种简单而有效的门控网络和模型权重相似性度量方法实现整体 ViT 模型的合并和性能提 - 基于具体子空间学习的多任务模型融合中干扰消除
提出了一种基于低维共享的 CONcrete 子空间学习方法来解决合并模型中的潜在冲突问题,并通过元学习框架以及梯度优化技术来找到 CONcrete 子空间掩码。通过在视觉和语言领域进行广泛实验,实验结果验证了方法的有效性。
- 任务子空间中的模型匹配合并
模型合并通过廉价地将个别任务特定模型合并成一个多任务模型。在本研究中,我们将过去的合并方法视为在合并之前利用不同概念的 “任务子空间” 进行模型匹配。我们将给定模型的任务子空间与其损失函数空间联系起来,并确立了模型合并方法可以看作是解线性方 - LM-Cocktail:通过模型合并实现语言模型的可靠调整
通过模型合并的方法(LM-Cocktail),将预训练语言模型与微调的模型通过加权平均的方式融合,以使得微调模型在一般任务中能够保持强大的实际性能,同时在特定领域具有优越的能力。
- MM重新考虑排列对称性用于合并来自不同数据集的模型
本文研究了不同数据集之间的模型合并,并通过理论和实证分析发现,不同数据集之间的合并模型准确性下降更为显著,其不同的损失景观使得模型合并更加困难。同时,我们还表明,使用数据集进行模型合并需要高准确性,而凝缩的数据集可以作为原始数据集的替代品进 - 合并模型时解决干扰
本文提出 TrIm 方法,即 Elect Sign & Merge (TIES-Merging) 方法,用于多任务模型的合并,该方法解决了现有合并方法忽略不同模型参数之间干扰,从而导致性能下降的问题。在多种不同情境下的实验中,本方法都表现优 - ZipIt! 不训练合并不同任务的模型
本文提出了 “ZipIt!” 方法,通过特征合并和部分合并层实现两个架构相同的模型的合并,使得合并不同领域训练的模型变得更为可行。
- 多模态模型合并的实证研究
本论文探讨了如何将不同模态的 transformer 模型融合成参数有效的多模态结构,通过综合实验分析了融合的关键因素,提出了一个有效的训练方法。
- GEMEL:边缘实时视频分析的内存高效模型合并技术
介绍了一种新的内存管理技术 - 模型合并 (GEMEL),通过合理地共享模型的层次结构和权重,减少了算力与内存的资源消耗,相对于时间 / 空间共享的解决方案,提高了 8-39% 的准确性,并将内存使用率降低了高达 60.7%
- Fisher 加权平均合并模型
本研究提出了 Fisher 合并方法用于模型合并,与标准梯度传递学习方法相比,Fisher 合并可以在中间任务训练和领域自适配预训练方面提供一种基本不同的能力转移方法,同时成本更低,并且同时能够实现以前未曾探索的模型组合方式。
- ECCVGAN 鸡尾酒:无需访问数据集混合 GAN
该论文提出了一种能够将两个或更多的预训练生成模型通过两个阶段的技术(模型根插和平均权重)以及微调组合为一个统一的模型的方法,应用于域自适应中。
- 基于最优先模型合并的隐马尔可夫模型归纳
通过模型合并策略,利用贝叶斯后验概率准则实现对隐藏马尔可夫模型的结构感知,具有更高的鲁棒性和准确性,并可应用于多发音单词模型的构建和语音识别的性能优化中。