- DogeRM: 通过模型合并为奖励模型提供领域知识
通过模型合并将领域知识整合到通用奖励模型中,提高了对齐大型语言模型的性能。
- Llama3-70B-Instruct 的领域适应:连续预训练和模型合并的综合评估
在金融监管数据集上,我们对 Meta-Llama-3-70B-Instruct 模型的领域适应性进行了广泛的实验,探索其在通用和特定领域基准上的性能。我们关注了持续预训练(CPT)和模型合并,旨在增强模型的特定领域能力,同时减轻灾难性遗忘。 - 双子融合:模型融合中的模块专长的动态整合
在大型语言模型时代,模型合并是将多个特定任务模型合并为一个多任务模型的有希望的方法,但面临着不同模型之间的干扰和测试期间的异构数据等两个挑战。我们提出了 Twin-Merging 方法,它模块化知识为共享和专属组件,并在输入的基础上动态地合 - MetaGPT: 使用模型专属任务算法合并大型语言模型
本文介绍了一种用于合并大型语言模型的模型专属任务算法,该算法通过优化合并模型和每个个体任务模型之间的平均损失差异来实现多任务学习,该方法不受隐私限制,具有成本效益和易于实施的优势,并在多个任务上取得了最先进的性能。
- DELLA-Merging: 通过基于大小的抽样减少模型合并中的干扰
利用一种新的模型合并技术 DELLA-Merging,它采用了一种名为 MAGPRUNE 的修剪技术,通过首先按照参数的大小对其进行排名并给较小的参数分配更高的丢弃概率 (p),接着在随机丢弃的参数上通过缩放操作近似原始嵌入。在三种不同的专 - 状态汤:上下文技能学习、检索和混合
探索利用状态序列模型的内部状态作为任务向量进行快速模型合并的方法,并通过简单的线性状态插值方法提高下一个标记的困惑度和上下文学习任务性能。
- MAP: 低计算模型合并与经摊销帕累托前沿的二次近似
通过使用近似评估度量的二次模型,模型合并与分摊了 Pareto 前沿上的多个模型,以反映各种权衡的结果。
- EMR-Merging:调优无需参数的高性能模型合并
我们在这篇论文中讨论了使用单个模型权重来合并多个模型以获得多任务能力的方法,并提出了 Elect, Mask & Rescale-Merging (EMR-Merging) 的方式,通过生成轻量级的任务特定调节器来对齐统一模型和每个特定模型 - ICML改进模型合并和压缩的任务信息定位
我们提出了一种模型合并的算法,通过使用 TALL-masks 方法识别任务支持,在保留超过 99%的单任务准确性的同时,提高了现有模型合并方法的性能,并且我们的压缩方案将存储减少了 57Gb 到 8.2Gb,保留了 99.7%的原始性能。
- 你合并了我的模型吗?关于大型语言模型知识产权保护方法对抗模型合并的稳定性
模型合并是一种有前景的轻量级模型增强技术,它不依赖昂贵的计算设备(如 GPU),也不需要收集特定的训练数据。该技术通过编辑不同的上游模型参数,吸收它们的下游任务能力。本文研究了模型合并场景下知识产权(IP)保护方法的鲁棒性,并调查了量化水印 - Arcee 的合并工具包:一个用于合并大型语言模型的工具包
采用开源语言模型、迁移学习和模型合并技术,通过创建多任务模型提升性能和应用领域的研究。为了支持这一领域的发展,推出了名为 MergeKit 的开源库,该库提供了一个可扩展的框架,便于在任何硬件上高效合并模型。
- MedMerge: 有效合并模型对医学成像任务进行有效的迁移学习
提出了 MedMerge 方法,通过合并来自不同初始化的模型的权重,从而结合学习自不同任务的特征,以提高医学图像分析任务性能。在各种医学图像分析任务上进行测试后,发现合并模型能够显著提高 F1 得分,最多可提高 3%。
- COLING语言模型融合的费舍尔掩码节点
我们引入一种新的模型合并方法,将先前在 Fisher 加权平均和模型修剪中对 Fisher 信息的使用的工作见解与 Transformer 结构内的掩码节点的 Fisher 信息相结合,提出了一种计算高效的加权平均方案。我们的方法在 BER - DPPA: 大型语言模型的修剪方法以模拟合并
通过提出动态修剪分区增强(DPPA)的双阶段方法,本文解决了合并复杂精调模型的挑战,该方法将动态修剪和动态分割放大两种策略相结合,实验结果表明,该方法在保留少于 20% 的特定领域参数的同时,表现与保留 90% 参数的其他方法相媲美,并且在 - CVPR无培训预训练模型融合
通过双空间约束下的模型合并框架 (MuDSC) 提出了一种解决方法,利用排列矩阵在双空间中探索位于具有统一高相似度的区域,从而显著提高合并模型的性能。
- 消除带后门模型的魔合技巧
合并带后门模型与其他同类模型可以修复后门漏洞,即使这些模型并非完全安全,该方法可有效地、高效地防御后门攻击,并能持续优于其他先进的基准线方法,使攻击成功率降低 75%。
- 线性模态连接性的基于置换的权重匹配分析
最近,Ainsworth 等人表明,在模型参数的置换搜索中使用权重匹配(WM)来最小化 $L_2$ 距离有效地识别符合线性模态连通性(LMC)的排列,其中在不同种子训练的两个独立模型之间的线性路径上的损失保持几乎不变。本文提供了关于使用 W - 多任务模型融合的表示手术
提出了一种名为 “Surgery” 的轻量级任务特定模块,通过减少合并模型中的表示偏差,显著改善多任务学习性能。
- 通过权重融合的专家组混合合并多任务模型
将各种在不同任务上训练的基于 Transformer 的专用模型合并为一个统一的模型,可以同时执行所有任务,通过识别并分离共享知识和任务特定知识,并动态地集成它们,可以在很大程度上减轻参数干扰问题。
- MMEvoMerge: 大规模语言模型的神经进化
利用模型合并进行权重交叉,利用微调进行权重突变,EvoMerge 引入了一种系统性的大语言模型训练和合并方法,旨在推动模型超越传统微调的限制。