大型语言模型的修补训练
本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量,并发现对于计算优化的训练,模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的Chinchilla,该模型在大范围的下游评估任务中均匀且显著地优于Gopher,GPT-3,Jurassic-1和Megatron-Turing NLG。
Mar, 2022
基于Transformer的大型语言模型存在长度泛化问题,传统的预训练模式需要耗费大量时间和资源进行解决,本研究提出了一种简单而有效的解决方案LM-Infinite,不需要参数更新或学习,具有计算效率高且生成质量好的特点,在长序列上有较之前的模型更好的表现。
Aug, 2023
本文研究如何有效地将任何现有的预训练大型语言模型适应到新的语言中,避免灾难性遗忘和标记器效率低下的问题,并通过添加目标语言的新标记和研究数据混合配方提高标记器的编码效率。实验证明,我们的配方在将英语预训练大型语言模型适应到匈牙利语和泰语方面,能够达到比开源模型更好的性能,同时对英语的回归影响很小。
Nov, 2023
ChatGPT的引入使得大型语言模型(LLM)被广泛应用于解决后续任务,而在此背景下,低成本的LLM培训和部署代表着未来的发展趋势。本文回顾了与这一新兴趋势相一致的大型语言模型培训技术和推理部署技术的演变。在培训方面,讨论了数据预处理、培训架构、预训练任务、并行培训以及与模型微调相关的内容。在推理方面,本文涵盖了模型压缩、并行计算、内存调度和结构优化等主题。它还探讨了LLM的利用并提供了对其未来发展的见解。
Jan, 2024
我们建议通过训练语言模型来预测多个未来标记,以提高样本利用效率,并对其下游能力进行改进,特别是在多词预测作为辅助训练任务时,在代码和自然语言生成模型方面获得了显著的改善。
Apr, 2024
本研究解决了大型语言模型(LLM)在性能优化和资源消耗方面的挑战。通过系统文献综述,提出了多种方法来加快LLM的训练和推理,同时保持准确性。研究表明,可以在不损失性能的情况下,显著降低计算和内存成本,推动LLM的广泛应用。
Sep, 2024
本研究解决了在低资源语言的情况下,优化大型语言模型训练配置的问题。通过对多轮次、多语言和两阶段训练方法的结合进行深入探索,提出了有效的超参数搜索成本降低策略。研究发现,目标语言语料量的减少会导致最佳训练方法的变化,从单语单阶段训练转向多语两阶段训练,并且最佳模型规模在不同语料量下保持稳定。
Oct, 2024