大模型中的模型合并:方法、理论、应用与机遇
本文研究了不同数据集之间的模型合并,并通过理论和实证分析发现,不同数据集之间的合并模型准确性下降更为显著,其不同的损失景观使得模型合并更加困难。同时,我们还表明,使用数据集进行模型合并需要高准确性,而凝缩的数据集可以作为原始数据集的替代品进行模型合并。在 MNIST 和 Fashion-MNIST 之间合并模型的实验中,使用数据集的准确性显著提高了28%,使用精简数据集提高了25%,相比不使用数据集。
Jun, 2023
采用开源语言模型、迁移学习和模型合并技术,通过创建多任务模型提升性能和应用领域的研究。为了支持这一领域的发展,推出了名为MergeKit的开源库,该库提供了一个可扩展的框架,便于在任何硬件上高效合并模型。
Mar, 2024
将多个专家语言模型合并成单一多功能模型的成本效益技术中,当前方法经常忽视了合并过程中安全对齐的重要性,导致模型高度不对齐。本研究调查了模型合并对对齐的影响,评估了几种常见的模型合并技术,证明现有方法不仅传递了领域专业知识,还传播了错对齐。我们提出了一个简单的两步方法来解决这个问题:(i)生成合成的安全性和领域特定数据,和(ii)将这些生成的数据纳入到现有数据感知的模型合并技术的优化过程中。这样,我们可以将对齐视为一项可以在合并后的多功能语言模型中最大化的技能。我们的实验表明,在合并过程中整合与对齐相关的数据的有效性,产生了在领域专业知识和对齐度方面都优秀的模型。
Jun, 2024
介绍了一种通过黑盒多目标优化算法进行大型语言模型合并的新方法,通过自动化配置搜索的过程,使用多个多样化任务的性能估计作为优化目标,以消除不同源模型之间的参数冲突,同时不丢失重要的增量参数,提供了模型合并技术的重要进展,为将多个模型集成为统一的高性能模型提供了强大而易于使用的解决方案。
Jun, 2024
通过模型合并,本研究探索为低资源语言开发任务解决型大型语言模型,通过与传统的连续预训练和监督微调方法相比,模型合并有效地提高了低资源语言的任务解决能力,从而在数据稀缺的情况下表现出更高的数据效率。
Jul, 2024
该研究解决了合并大型语言模型(LLMs)时,微调(FT)和预训练(PT)模型之间参数变化范围不同带来的挑战。论文提出了一种基于权重解耦(WIDEN)的方法,有效扩展了合并技术的适用范围,实验结果显示,WIDEN能够成功将多语种能力注入指令跟随能力模型,并提高其在东南亚语言中的表现。
Aug, 2024
本研究针对机器学习领域模型合并技术的系统审视,填补了现有文献的空白。提出了一种新的分类方法,全面讨论现有的模型合并方法,并探讨其在大规模语言模型、多模态大规模语言模型及多个机器学习子领域中的应用。研究的主要发现是模型合并仍面临挑战,并提供了未来研究方向的建议。
Aug, 2024
本研究针对文献中缺乏系统性综述模型合并技术的问题,提出了一种新的分类方法,以全面探讨现有的模型合并方法。此外,研究还讨论了模型合并技术在大规模语言模型和多模态大规模语言模型等多个机器学习子领域的应用。研究的重要发现是提出的模型合并方法可以为未来的研究方向奠定基础,具有广泛的应用潜力。
Aug, 2024
本研究解决了现有模型合并方法只能生成单一合并模型的问题,使得合并后的模型可能无法满足不同用户的偏好。我们提出了一种基于偏好的模型合并方法,将其公式化为多目标优化问题,在一次合并过程中生成完整的帕累托集,能够根据用户的特定偏好选择合适的合并模型。实验结果表明,该方法可以获得多样化的权衡模型,超越了当前最先进的模型合并基线。
Aug, 2024