MUSCLE: 适用于兼容LLM进化的模型更新策略
本文研究如何有效地将任何现有的预训练大型语言模型适应到新的语言中,避免灾难性遗忘和标记器效率低下的问题,并通过添加目标语言的新标记和研究数据混合配方提高标记器的编码效率。实验证明,我们的配方在将英语预训练大型语言模型适应到匈牙利语和泰语方面,能够达到比开源模型更好的性能,同时对英语的回归影响很小。
Nov, 2023
定义了指令不一致问题并提出了两阶段训练框架,在第一阶段通过相似指令增强帮助模型跟随指令,第二阶段通过区分相似回应中微小差异来提高模型的多样性和人类期望的一致性,并通过自奖励训练过程来验证该框架的有效性。
Mar, 2024
使用以预训练大型语言模型(LLM)为基础的LLM2LLM方法,通过数据增强和迭代,显著提高LLM在低数据情况下的性能,优于传统的微调和其他数据增强方法,减少了对数据策划的依赖,为更可扩展和高性能的LLM解决方案铺平了道路。
Mar, 2024
我们详细调查了将LLMs适应到新语言的过程,包括词汇扩展、直接优化偏好以及低资源语言中的数据匮乏问题,我们的实验覆盖了9种语言和2个参数规模,并与先前的基准模型进行比较,我们的模型表现优于所有先前已发表的基准模型。
Apr, 2024
我们提出了MAML-en-LLM,一种新的元训练大型语言模型的方法,可以学习到真正可泛化的参数,不仅在不同任务上表现良好,还适应了未知任务,并且在性能和适应性能上得到了显著提升。
May, 2024
通过对已有大语言模型进行适应和扩展,我们研究了构建语言专属的大语言模型。我们通过系统实验探究基础模型选择、词汇扩展和持续微调等设计选择对适应后的大语言模型的效率(编码同样数量信息所需的词汇数)和最终任务性能的影响。我们发现,(1)适应前的初始性能并不总是最终性能的指示;(2)大多数研究的大语言模型可以通过简单的词汇扩展和持续微调来提高效率;(3)最佳的适应方法高度依赖于语言,简单的方法在各种实验设置中都表现良好。与适应多语言模型相比,适应以英语为中心的模型在资源稀缺语言上可以取得更好的结果。总之,我们的工作为通过适应现有大语言模型高效构建语言专属大语言模型奠定了基础。
Jun, 2024
通过模型合并,本研究探索为低资源语言开发任务解决型大型语言模型,通过与传统的连续预训练和监督微调方法相比,模型合并有效地提高了低资源语言的任务解决能力,从而在数据稀缺的情况下表现出更高的数据效率。
Jul, 2024
本研究解决了大型语言模型(LLMs)中陈旧或有问题知识的修改问题,提出了“LLM手术”框架。该框架通过优化一个三部分目标函数,实现了有效的知识遗忘和新知识的整合,同时保持模型性能,体现该方法在提升模型准确性和效率方面的潜力。
Sep, 2024