混合数据还是合并模型?为多任务学习优化
本文提出了 MergeDistill 框架,通过知识蒸馏的方式合并预先训练的多语言模型,旨在快速训练出性能与甚至优于数量级更大的模型,同时强调教师模型的选择对学生模型性能的影响。
Jun, 2021
将多个专家语言模型合并成单一多功能模型的成本效益技术中,当前方法经常忽视了合并过程中安全对齐的重要性,导致模型高度不对齐。本研究调查了模型合并对对齐的影响,评估了几种常见的模型合并技术,证明现有方法不仅传递了领域专业知识,还传播了错对齐。我们提出了一个简单的两步方法来解决这个问题:(i)生成合成的安全性和领域特定数据,和(ii)将这些生成的数据纳入到现有数据感知的模型合并技术的优化过程中。这样,我们可以将对齐视为一项可以在合并后的多功能语言模型中最大化的技能。我们的实验表明,在合并过程中整合与对齐相关的数据的有效性,产生了在领域专业知识和对齐度方面都优秀的模型。
Jun, 2024
介绍了一种通过黑盒多目标优化算法进行大型语言模型合并的新方法,通过自动化配置搜索的过程,使用多个多样化任务的性能估计作为优化目标,以消除不同源模型之间的参数冲突,同时不丢失重要的增量参数,提供了模型合并技术的重要进展,为将多个模型集成为统一的高性能模型提供了强大而易于使用的解决方案。
Jun, 2024
通过模型合并,本研究探索为低资源语言开发任务解决型大型语言模型,通过与传统的连续预训练和监督微调方法相比,模型合并有效地提高了低资源语言的任务解决能力,从而在数据稀缺的情况下表现出更高的数据效率。
Jul, 2024
本研究介绍了一种混合语言查询-回复方案,名为多语言融合,用于评估各种最先进的LLMs(例如GPT-4o、GPT-3.5、Llama3)在复杂的多语言环境下的安全对齐性。研究结果表明,没有经过精心制作的提示模板,多语言融合显著放大了恶意查询的危害,导致LLMs在安全对齐方面的绕过率显著增加。此外,多语言融合的性能在内在语言属性上有显著差异,不同形态和不同语系的语言更容易规避安全对齐。这些发现强调了在复杂的多语言环境下评估LLMs并开发相应的安全对齐策略以适应其优越的跨语言泛化能力的必要性。
Jul, 2024
该研究解决了合并大型语言模型(LLMs)时,微调(FT)和预训练(PT)模型之间参数变化范围不同带来的挑战。论文提出了一种基于权重解耦(WIDEN)的方法,有效扩展了合并技术的适用范围,实验结果显示,WIDEN能够成功将多语种能力注入指令跟随能力模型,并提高其在东南亚语言中的表现。
Aug, 2024
本研究针对机器学习领域模型合并技术的系统审视,填补了现有文献的空白。提出了一种新的分类方法,全面讨论现有的模型合并方法,并探讨其在大规模语言模型、多模态大规模语言模型及多个机器学习子领域中的应用。研究的主要发现是模型合并仍面临挑战,并提供了未来研究方向的建议。
Aug, 2024
本研究针对文献中缺乏系统性综述模型合并技术的问题,提出了一种新的分类方法,以全面探讨现有的模型合并方法。此外,研究还讨论了模型合并技术在大规模语言模型和多模态大规模语言模型等多个机器学习子领域的应用。研究的重要发现是提出的模型合并方法可以为未来的研究方向奠定基础,具有广泛的应用潜力。
Aug, 2024
本研究针对当前文献中缺乏系统的模型合并方法综述这一问题,提出了一种新的分类方法来全面讨论现有的模型合并技术。研究结果指出,模型合并在大型语言模型和多模态语言模型等多个领域中具有广泛的应用潜力,同时也面临若干挑战,亟需未来研究探索。
Aug, 2024
本研究针对通用语言模型适应新技能的高成本问题,提出了一种通过隔离训练新技能并随后与通用模型合并的方法。实验表明,这种并行训练后合并的过程,不仅成本显著低于传统的模型重训,也能有效提升模型对安全提示的遵从性,同时保持其拒绝危险或有害提示的能力。
Oct, 2024