合并学习：通过模型合并高效添加语言模型技能

Oct, 2024

合并学习：通过模型合并高效添加语言模型技能

Merge to Learn: Efficiently Adding Skills to Language Models with Model Merging

Jacob Morrison, Noah A. Smith, Hannaneh Hajishirzi, Pang Wei Koh, Jesse Dodge...

TL;DR本研究针对通用语言模型适应新技能的高成本问题，提出了一种通过隔离训练新技能并随后与通用模型合并的方法。实验表明，这种并行训练后合并的过程，不仅成本显著低于传统的模型重训，也能有效提升模型对安全提示的遵从性，同时保持其拒绝危险或有害提示的能力。

Abstract

Adapting general-purpose Language Models to new skills is currently an expensive process that must be repeated as new instruction datasets targeting new skills are created, or can cause the models to forget older skills. In this work, we investigate the effectiveness of adding new skil

发现论文，激发创造

MergeDistill: 使用蒸馏方法合并预训练语言模型

本文提出了 MergeDistill 框架，通过知识蒸馏的方式合并预先训练的多语言模型，旨在快速训练出性能与甚至优于数量级更大的模型，同时强调教师模型的选择对学生模型性能的影响。

Jun, 2021

解锁低资源语言模型合并的潜力

通过模型合并，本研究探索为低资源语言开发任务解决型大型语言模型，通过与传统的连续预训练和监督微调方法相比，模型合并有效地提高了低资源语言的任务解决能力，从而在数据稀缺的情况下表现出更高的数据效率。

Jul, 2024

重用而非重新训练：持续语言模型预训练的方案

通过重复使用训练好的模型，以及使用高效的数据分布和学习率调度设计，我们在继续预训练的过程中相比于基准的预训练集继续训练，展示了平均模型准确率提高9%的改善，这一成果为发展语言模型提供了实用的起点。

Jul, 2024

通过模型合并减轻语言迁移中的灾难性遗忘

提出了一种新的适应方法Branch-and-Merge（BaM），通过迭代合并多个模型，在可用训练数据的子集上进行微调，从而减少源领域的遗忘，同时在目标领域保持学习，从而显著降低遗忘并提高目标领域性能。

Jul, 2024

通过权重解耦将模型合并从微调扩展到预训练大型语言模型

该研究解决了合并大型语言模型（LLMs）时，微调（FT）和预训练（PT）模型之间参数变化范围不同带来的挑战。论文提出了一种基于权重解耦（WIDEN）的方法，有效扩展了合并技术的适用范围，实验结果显示，WIDEN能够成功将多语种能力注入指令跟随能力模型，并提高其在东南亚语言中的表现。

Aug, 2024

大规模语言模型及其他中的模型合并：方法、理论、应用与机会

本研究针对机器学习领域模型合并技术的系统审视，填补了现有文献的空白。提出了一种新的分类方法，全面讨论现有的模型合并方法，并探讨其在大规模语言模型、多模态大规模语言模型及多个机器学习子领域中的应用。研究的主要发现是模型合并仍面临挑战，并提供了未来研究方向的建议。

Aug, 2024

大规模语言模型及其他领域中的模型合并：方法、理论、应用与机遇

本研究针对文献中缺乏系统性综述模型合并技术的问题，提出了一种新的分类方法，以全面探讨现有的模型合并方法。此外，研究还讨论了模型合并技术在大规模语言模型和多模态大规模语言模型等多个机器学习子领域的应用。研究的重要发现是提出的模型合并方法可以为未来的研究方向奠定基础，具有广泛的应用潜力。

Aug, 2024

大模型中的模型合并：方法、理论、应用与机遇

本研究针对当前文献中缺乏系统的模型合并方法综述这一问题，提出了一种新的分类方法来全面讨论现有的模型合并技术。研究结果指出，模型合并在大型语言模型和多模态语言模型等多个领域中具有广泛的应用潜力，同时也面临若干挑战，亟需未来研究探索。

Aug, 2024

混合数据还是合并模型？为多任务学习优化

本研究解决了大型语言模型在多语言环境下安全使用的挑战，尤其是其在西方中心数据集中的偏见问题。通过结合安全性和通用任务的方法，研究发现目标导向的模型合并比混合数据更有效，性能提升达8%，安全性提升达10%。此外，跨语言模型合并也取得了显著成效，为构建强大且安全的多语言模型提供了有益框架。

Oct, 2024

LoRA汤：合并LoRA以进行实际技能组合任务

本研究解决了在缺乏目标任务训练数据的情况下如何有效合并不同的LoRA模块以实现技能组合的问题。通过提出连接LoRA（CAT）的方法，研究表明其在解决需要组合多项技能的任务时，比现有模型和数据融合技术表现优越，尤其在数学词题上，性能提升达到平均43%和12%。

Oct, 2024