LM-Cocktail:通过模型合并实现语言模型的可靠调整
本文提出了 MergeDistill 框架,通过知识蒸馏的方式合并预先训练的多语言模型,旨在快速训练出性能与甚至优于数量级更大的模型,同时强调教师模型的选择对学生模型性能的影响。
Jun, 2021
大语言模型的微调方法的缩放因子对模型性能的影响的系统实验结果表明,LLM finetuning 遵循微调数据量与其他缩放因子之间的幂函数乘法联合缩放规律,LLM 模型尺寸的扩大比预训练数据尺寸的扩大对 finetuning 更有益处,而仅考虑参数缩放的效果通常并不明显,同时最优的 finetuning 方法与任务和微调数据相关联,这些结果对于选择和开发 LLM finetuning 方法具有指导意义。
Feb, 2024
该研究探讨了大型语言模型的细调策略,发现可替代方法在领域外泛化方面与标准方法相媲美,强调了对有效提示的需求,并针对可用资源和任务适应性进行合适的细调方法选择。
May, 2024
通过模型合并,本研究探索为低资源语言开发任务解决型大型语言模型,通过与传统的连续预训练和监督微调方法相比,模型合并有效地提高了低资源语言的任务解决能力,从而在数据稀缺的情况下表现出更高的数据效率。
Jul, 2024
该研究解决了合并大型语言模型(LLMs)时,微调(FT)和预训练(PT)模型之间参数变化范围不同带来的挑战。论文提出了一种基于权重解耦(WIDEN)的方法,有效扩展了合并技术的适用范围,实验结果显示,WIDEN能够成功将多语种能力注入指令跟随能力模型,并提高其在东南亚语言中的表现。
Aug, 2024
本研究针对机器学习领域模型合并技术的系统审视,填补了现有文献的空白。提出了一种新的分类方法,全面讨论现有的模型合并方法,并探讨其在大规模语言模型、多模态大规模语言模型及多个机器学习子领域中的应用。研究的主要发现是模型合并仍面临挑战,并提供了未来研究方向的建议。
Aug, 2024
本研究针对当前文献中缺乏系统的模型合并方法综述这一问题,提出了一种新的分类方法来全面讨论现有的模型合并技术。研究结果指出,模型合并在大型语言模型和多模态语言模型等多个领域中具有广泛的应用潜力,同时也面临若干挑战,亟需未来研究探索。
Aug, 2024
本研究解决了在不同大型语言模型(LM)组合时性能下降的问题,提出了一种新的整合策略Model-GLUE。通过对现有缩放技术的基准测试,形成了针对异构模型库的选择与聚合策略,最终在测试中实现了平均5.61%的性能提升,且无需额外训练。
Oct, 2024
本研究解决了大型语言模型在多语言环境下安全使用的挑战,尤其是其在西方中心数据集中的偏见问题。通过结合安全性和通用任务的方法,研究发现目标导向的模型合并比混合数据更有效,性能提升达8%,安全性提升达10%。此外,跨语言模型合并也取得了显著成效,为构建强大且安全的多语言模型提供了有益框架。
Oct, 2024
本研究针对通用语言模型适应新技能的高成本问题,提出了一种通过隔离训练新技能并随后与通用模型合并的方法。实验表明,这种并行训练后合并的过程,不仅成本显著低于传统的模型重训,也能有效提升模型对安全提示的遵从性,同时保持其拒绝危险或有害提示的能力。
Oct, 2024