解锁低资源语言模型合并的潜力
本文提出了 MergeDistill 框架,通过知识蒸馏的方式合并预先训练的多语言模型,旨在快速训练出性能与甚至优于数量级更大的模型,同时强调教师模型的选择对学生模型性能的影响。
Jun, 2021
本文研究如何有效地将任何现有的预训练大型语言模型适应到新的语言中,避免灾难性遗忘和标记器效率低下的问题,并通过添加目标语言的新标记和研究数据混合配方提高标记器的编码效率。实验证明,我们的配方在将英语预训练大型语言模型适应到匈牙利语和泰语方面,能够达到比开源模型更好的性能,同时对英语的回归影响很小。
Nov, 2023
通过参数高效微调能够提高大语言模型的性能,而无需大量的资源和计算。对多语言评估的先前研究表明,英语和其他语言在性能上存在很大差距。此外,开源模型和较大规模的语言模型之间也存在差距。微调是弥合差距、使语言模型更加公平的有效方法。本研究通过对合成多语言指示微调数据上进行 LLaMA-7B 和 Mistral-7B 模型的微调,以评估其对模型在涵盖 23 种语言的五个下游任务上的性能影响。此外,我们还在低秩适应的等级和量化值上进行了实验,以确定它们对下游性能的影响并发现较高的等级和量化值有益于低资源语言。我们发现通过参数高效微调较小的开源模型有时可以弥合这些模型和较大模型性能之间的差距,但对英语性能有所降低。我们还发现微调有时可以提高低资源语言的性能,但在高资源语言上性能可能会下降。
Jan, 2024
介绍了一种通过黑盒多目标优化算法进行大型语言模型合并的新方法,通过自动化配置搜索的过程,使用多个多样化任务的性能估计作为优化目标,以消除不同源模型之间的参数冲突,同时不丢失重要的增量参数,提供了模型合并技术的重要进展,为将多个模型集成为统一的高性能模型提供了强大而易于使用的解决方案。
Jun, 2024
该研究解决了合并大型语言模型(LLMs)时,微调(FT)和预训练(PT)模型之间参数变化范围不同带来的挑战。论文提出了一种基于权重解耦(WIDEN)的方法,有效扩展了合并技术的适用范围,实验结果显示,WIDEN能够成功将多语种能力注入指令跟随能力模型,并提高其在东南亚语言中的表现。
Aug, 2024
本研究针对机器学习领域模型合并技术的系统审视,填补了现有文献的空白。提出了一种新的分类方法,全面讨论现有的模型合并方法,并探讨其在大规模语言模型、多模态大规模语言模型及多个机器学习子领域中的应用。研究的主要发现是模型合并仍面临挑战,并提供了未来研究方向的建议。
Aug, 2024
本研究针对当前文献中缺乏系统的模型合并方法综述这一问题,提出了一种新的分类方法来全面讨论现有的模型合并技术。研究结果指出,模型合并在大型语言模型和多模态语言模型等多个领域中具有广泛的应用潜力,同时也面临若干挑战,亟需未来研究探索。
Aug, 2024
本研究解决了大型语言模型在多语言环境下安全使用的挑战,尤其是其在西方中心数据集中的偏见问题。通过结合安全性和通用任务的方法,研究发现目标导向的模型合并比混合数据更有效,性能提升达8%,安全性提升达10%。此外,跨语言模型合并也取得了显著成效,为构建强大且安全的多语言模型提供了有益框架。
Oct, 2024
本研究解决了创建强大通用大语言模型(LLM)面临的资源和数据限制问题,提出了一种无约束模型合并框架,能够兼容同质和异质模型架构,重点关注推理任务。这项工作表明,通过模型合并可以实现组合推理,超越简单的加性效果,为去中心化LLM的发展奠定了基础,推动人工智能领域的创新和进步。
Oct, 2024
本研究针对通用语言模型适应新技能的高成本问题,提出了一种通过隔离训练新技能并随后与通用模型合并的方法。实验表明,这种并行训练后合并的过程,不仅成本显著低于传统的模型重训,也能有效提升模型对安全提示的遵从性,同时保持其拒绝危险或有害提示的能力。
Oct, 2024