MergeDistill: 使用蒸馏方法合并预训练语言模型
本文提出了一种基于教师-学生知识蒸馏的新型多语种训练技术,利用平衡(子采样)数据将单语教师模型的知识蒸馏到一个多语种学生中,可以提高自然语言处理系统中低资源语言的表现。
Oct, 2022
通过模型合并的方法(LM-Cocktail),将预训练语言模型与微调的模型通过加权平均的方式融合,以使得微调模型在一般任务中能够保持强大的实际性能,同时在特定领域具有优越的能力。
Nov, 2023
DistiLLM是一种更有效和高效的知识蒸馏框架,适用于自回归语言模型,通过引入倾斜的Kullback-Leibler散度损失和自适应的离策略方法,构建高性能的学生模型,并相较于最近的知识蒸馏方法获得最高4.3倍的加速比。
Feb, 2024
通过模型合并,本研究探索为低资源语言开发任务解决型大型语言模型,通过与传统的连续预训练和监督微调方法相比,模型合并有效地提高了低资源语言的任务解决能力,从而在数据稀缺的情况下表现出更高的数据效率。
Jul, 2024
该研究解决了合并大型语言模型(LLMs)时,微调(FT)和预训练(PT)模型之间参数变化范围不同带来的挑战。论文提出了一种基于权重解耦(WIDEN)的方法,有效扩展了合并技术的适用范围,实验结果显示,WIDEN能够成功将多语种能力注入指令跟随能力模型,并提高其在东南亚语言中的表现。
Aug, 2024
本研究解决了在目标非英语任务中缺乏特定任务数据的挑战,提出了一种通过组合语言和数学能力来促进跨语言迁移的新方法。研究表明,采用层交换技术的合并模型在数学基准测试中比传统方法提高了10%的性能,展示了在不同语言间成功转移推理能力的潜力。
Oct, 2024
本研究解决了大型语言模型在多语言环境下安全使用的挑战,尤其是其在西方中心数据集中的偏见问题。通过结合安全性和通用任务的方法,研究发现目标导向的模型合并比混合数据更有效,性能提升达8%,安全性提升达10%。此外,跨语言模型合并也取得了显著成效,为构建强大且安全的多语言模型提供了有益框架。
Oct, 2024
本研究针对通用语言模型适应新技能的高成本问题,提出了一种通过隔离训练新技能并随后与通用模型合并的方法。实验表明,这种并行训练后合并的过程,不仅成本显著低于传统的模型重训,也能有效提升模型对安全提示的遵从性,同时保持其拒绝危险或有害提示的能力。
Oct, 2024
本研究解决了预训练语言模型知识蒸馏中的效率、灵活性和有效性问题。通过MiniPLM框架,采用离线教师模型推理,优化了训练数据分布,提高了学生模型的知识获取能力。实验表明,MiniPLM在多个下游任务上显著提升了学生模型的性能,提高了语言建模能力,并降低了预训练计算需求。
Oct, 2024
本研究解决了预训练语言模型(KD)过程中效率、灵活性和有效性的问题。我们提出了MiniPLM框架,通过优化教师模型的知识提高训练数据的分布,以实现高效的离线推理和跨模型家族的知识蒸馏,并增强小模型的能力与知识多样性。实验表明,MiniPLM显著提升了学生模型在多个下游任务上的表现,同时减少了预训练计算量。
Oct, 2024