大型语言模型中的下一标记预测法则
在大规模预训练语言模型(LLMs)中,我们进行了一项全面研究,探究了分词器选择对下游性能、训练数据集和词汇量的影响。研究发现,分词器的选择可以显著影响模型的下游性能、训练和推理成本,并指出常用的分词器评估指标并不能准确预测模型性能,特别是多语言分词器在词汇量方面需要比英语增加三倍。在训练多语言LLMs时,仅采用英语分词器会导致严重的性能下降和高达68%的额外训练成本,因为其分词词汇表效率低下。
Oct, 2023
本文介绍了可拓展分词作为一种可选方法,可实现大语言模型(LLMs)上下文的灵活扩展,以提供更多信息。经过综合实验证明,可拓展分词是一种有效、高效、灵活和兼容的方法,可扩展LLMs的上下文。
Jan, 2024
该研究探讨了大型语言模型(LLMs)中嵌入的信息编码,并发现与模型大小存在幂律关系的表示熵。基于此观察,提出了一个基于(条件)熵的理论以阐明该缩放定律现象。此外,通过使用信息论和回归技术,研究LLMs的自回归结构,并检查最后一个标记与前文标记之间的关系。具体地,我们建立了新标记的信息增益与岭回归之间的理论联系。此外,我们还探索了Lasso回归在选择有意义的标记方面的有效性,有时优于相关的注意力权重。最后,通过进行对比实验,发现信息分布在各个标记中,而不仅仅集中在特定的“有意义”标记中。
Feb, 2024
LargeRoPE通过识别和利用位置插值中的非均匀性,引入渐进扩展策略和调整,将预训练语言模型的上下文窗口扩展到2048k tokens,同时保持原始短上下文窗口的性能。
Feb, 2024
通过引入“Leverage Learning”方法,我们实现了一种简化的实施方式,称为“Token-Efficient Leverage Learning (TELL)”。TELL展示了Leverage Learning的潜力,并在各种LLMs和低资源任务中展示了有效性,任务数据需求降低了近一个数量级,并且在与传统的监督微调(SFT)相比表现出有竞争力的性能。我们讨论了Leverage Learning的机制,提出它与量化假设相一致,并通过经验测试探索了它的潜在潜力。
Apr, 2024
大型语言模型的研究着重于提升预训练数据的规模和质量,而目前对于其真正理解代码逻辑的任务效果仍然存在疑问。本文提出了一种新的任务,即“逻辑等效代码选择”,证明了当前的大型语言模型在这一任务中表现不佳,并提出了预训练任务“下一个标记预测+”来改善其性能,实验证明该方法对于逻辑等效代码的选择和代码补全任务有显著的改进。
Apr, 2024
最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象,并提供了对预训练语言模型更深入的理解。
Apr, 2024
我们建议通过训练语言模型来预测多个未来标记,以提高样本利用效率,并对其下游能力进行改进,特别是在多词预测作为辅助训练任务时,在代码和自然语言生成模型方面获得了显著的改善。
Apr, 2024