无培训预训练模型融合
在大型语言模型时代,模型合并是将多个特定任务模型合并为一个多任务模型的有希望的方法,但面临着不同模型之间的干扰和测试期间的异构数据等两个挑战。我们提出了 Twin-Merging 方法,它模块化知识为共享和专属组件,并在输入的基础上动态地合并共享和任务特定的知识,从而缩小了合并模型和微调模型之间的性能差距,并提高了对异构数据的适应性。广泛的实验表明了我们方法的有效性,对于判别性任务平均标准化得分提升了 28.34%,在生成性任务上甚至超过了微调模型的上限。
Jun, 2024
本文介绍了一种新颖的无数据方法,用于在权重空间中合并神经网络,并优化了所有层次中全局性的网络神经元排列组合的置换。通过强制约束排列组合的循环一致性,我们得以在合并至少三个模型时计算排列组合的循环结构,无需在路径中累积误差。在各种架构和数据集的场景中,我们定性和定量地证明了这种约束的必要性以及合并模型集合时的好处。最后,我们展示了当结合激活重标准化时,我们的方法在任务中取得了最佳结果。
May, 2024
通过在两个不同的空间中进行共训练,提出了一种名为 DSCMC 的新型多视图聚类模型,以增强聚类性能。我们的方法旨在捕捉不同视图中数据点之间的内在关系和结构,并将信息从多个视图映射到共享的潜在空间。通过构建潜在一致的锚图和特征转换来实现共同优化,从而生成具有判别性能力的锚图。我们的算法具有近似线性的计算复杂度,在大规模数据集上应用非常成功。通过实验证实,与现有方法相比,我们的方法显著降低了计算复杂度并获得了更好的聚类性能。
Jan, 2024
模型合并通过廉价地将个别任务特定模型合并成一个多任务模型。在本研究中,我们将过去的合并方法视为在合并之前利用不同概念的 “任务子空间” 进行模型匹配。我们将给定模型的任务子空间与其损失函数空间联系起来,并确立了模型合并方法可以看作是解线性方程组的形式化过程。我们探讨了使用共轭梯度方法寻找解决方案的可能性,并展示了共轭梯度方法可以超越解析解的性能,实现对其他难以求解线性系统的合并,并且可以灵活选择 “任务子空间” 的初始值和估计值。我们最终证明了我们的合并框架 “在任务子空间中匹配模型”(MaTS)在多任务和中间任务模型合并方面取得了最先进的结果。我们在此网址 https://URL 中发布了我们工作中使用的所有代码和检查点。
Dec, 2023
本篇论文探讨了通过合并不同 MuJoCo 运动问题的决策 Transformer 子集,形成多任务模型(无集中式训练),从而更加灵活地创造通用策略的初步方法,同时提出了合并政策的更优结果可能性,并建议使用共同的预先训练初始化,以及在问题特定微调期间共同训练共享辅助任务,以帮助实现通用智能体的民主化和分布式过程。
Mar, 2023
将各种在不同任务上训练的基于 Transformer 的专用模型合并为一个统一的模型,可以同时执行所有任务,通过识别并分离共享知识和任务特定知识,并动态地集成它们,可以在很大程度上减轻参数干扰问题。
Feb, 2024
提出了 MedMerge 方法,通过合并来自不同初始化的模型的权重,从而结合学习自不同任务的特征,以提高医学图像分析任务性能。在各种医学图像分析任务上进行测试后,发现合并模型能够显著提高 F1 得分,最多可提高 3%。
Mar, 2024
本文提出了一种基于闭环迭代一致优化的框架,将不同的预训练模型组合在一起,以零样本方式解决各种多模态问题,该框架通过生成器和评分器的迭代反馈,使模型之间通过沟通逐渐纠正错误,形成一致性,从而显著提高下游任务的性能。
Oct, 2022
本文研究了不同数据集之间的模型合并,并通过理论和实证分析发现,不同数据集之间的合并模型准确性下降更为显著,其不同的损失景观使得模型合并更加困难。同时,我们还表明,使用数据集进行模型合并需要高准确性,而凝缩的数据集可以作为原始数据集的替代品进行模型合并。在 MNIST 和 Fashion-MNIST 之间合并模型的实验中,使用数据集的准确性显著提高了 28%,使用精简数据集提高了 25%,相比不使用数据集。
Jun, 2023