通过多令牌预测实现更好、更快的大型语言模型
本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量,并发现对于计算优化的训练,模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的Chinchilla,该模型在大范围的下游评估任务中均匀且显著地优于Gopher,GPT-3,Jurassic-1和Megatron-Turing NLG。
Mar, 2022
使用一个可学习的“暂停”标记和推迟提取模型输出的方法,我们在语言模型上执行训练和推理,并观察到模型在预训练和微调过程中实现了推理时间延迟的增益,这对各种推理、问答和基本理解任务都有积极的影响,进一步将延迟下一个标记预测的方法应用于各种应用场景可能引发更多概念性和实践性的未来研究问题。
Oct, 2023
多语言语言模型的综合评估:mBERT、XLM-R和GPT-3在具有不同语言环境的各种语言上的性能评估,发现资源可用性对模型性能有重要影响,并且资源可用性、语言家族和脚本类型之间存在复杂关系,为模型选择和部署提供了见解。
Oct, 2023
我们提出了一种名为MWT的多词标记器,它通过将频繁出现的多词表达式表示为单个标记,从而超越词边界。MWT产生更紧凑高效的标记化,从而提供两个好处:(1)在固定序列长度和预算的情况下,提高性能,因为能够更全面地覆盖输入数据;(2)通过减少序列长度,使推理速度更快、负载更轻,而性能几乎不受影响。我们的结果表明,MWT在较短的序列长度上更加稳健,从而通过早期序列截断实现主要的加速。
Feb, 2024
大型语言模型的研究着重于提升预训练数据的规模和质量,而目前对于其真正理解代码逻辑的任务效果仍然存在疑问。本文提出了一种新的任务,即“逻辑等效代码选择”,证明了当前的大型语言模型在这一任务中表现不佳,并提出了预训练任务“下一个标记预测+”来改善其性能,实验证明该方法对于逻辑等效代码的选择和代码补全任务有显著的改进。
Apr, 2024
DynaMo是一个多令牌预测语言模型套件,通过在预测联合概率分布的基础上动态预测多个令牌来减少净推理时间,实现了与基准(Pythia-6.9B)相同质量的生成文本,并获得2.57倍的加速,仅有5.87%和2.67%的参数和训练时间开销。
May, 2024
本研究解决了大型语言模型(LLMs)在理解内部输入数据处理过程中的黑箱问题。我们提出了一种定量法则,揭示每一层在提高下一标记预测的准确性方面均作出相等贡献。这一发现对LLM的设计、训练和应用具有重要影响,提供了新的指导思路。
Aug, 2024
本研究解决了大型语言模型训练过程中的资源浪费问题,提出了一种新的分词方法MultiTok,灵感来自于通用的LZW数据压缩。通过将重复短语压缩为多词令牌,MultiTok能够在保持相似准确性的同时,显著提高训练效率,实现了接近2.5倍的训练速度和超过30%的数据减少。
Oct, 2024