词汇规模与扩展:更大的模型应当有更大的词汇量
本文介绍了一种新方法,通过降低语言之间的词汇共享并分配单独语言的词汇容量,实现非常大的多语言词汇量的扩展,用于构建 XLM-V 多语言模型,其表现优于 XLM-R 模型。
Jan, 2023
本文研究小规模的语言模型中pre-training效果的影响,发现masked language modeling对于1.25M及以上规模的模型具有优化效果,并建立了pre-training perplexity和下游任务(GLUE benchmark)表现的强关联性。同时,研究了downscaling effects,并且观察到FLOPs小于$2.2×10^{15}$时,MLM loss并不随着计算成本(FLOPs)的降低而平滑缩小,增加层数并不总是有助于提高下游表现。
May, 2023
本篇综述论文全面分析了大型语言模型的架构及其分类、训练策略、训练数据集和性能评估,并讨论了未来的研究方向,最后总结了大型语言模型研究的重要发现和关键的架构和训练策略。
Jul, 2023
综述了旨在改善大型语言模型(Large Language Models)效率的算法进展,包括扩展法则、数据利用、架构创新、训练和调优策略以及推理技术等多个方面,旨在为研究人员和从业者提供宝贵的资源,并为未来的创新奠定基础。
Dec, 2023
通过开展大量模型和数据维度的可扩展研究,我们引入了MiniCPM,这是一种高效资源的替代模型,旨在探索小型语言模型在未来大型语言模型研究中的潜力,并通过模型收敛和数据适应来优化比例关系。
Apr, 2024
最近,大型语言模型广泛应用于各种任务,对于如何扩展语言模型对其性能的影响的研究引起了越来越多的关注。本文提出了新概念的时间缩放定律,并研究了语言模型在时间维度上的损失。研究发现,尽管存在损失不平衡,语言模型在不同的令牌位置上学习是均匀的。通过在各种规模的预训练语言模型上进行的实验验证了这一现象,并提供了对预训练语言模型更深入的理解。
Apr, 2024
通过对模型规模和量化的综合评估,发现在各种任务中,规模较大的模型通常优于规模较小的模型,同时大规模模型对于精度降低有很好的韧性,可在较小的内存要求下保持高准确性,因此它们比使用更小的模型更好。
May, 2024
本文通过实证研究了子词词汇大小与大型语言模型(LLM)性能之间的关系,以提供关于如何定义词汇大小的洞见。实验结果表明,更大的词汇大小可提高LLM的性能。此外,我们考虑了一个持续训练的情景,其中一个预训练的语言模型在不同的目标语言上进行训练。我们引入了一种简单的方法,使用新的词汇代替预定义的词汇。我们证明使用新词汇优于使用预训练词汇的模型。
Jun, 2024
本研究解决了大型语言模型(LLM)在性能优化和资源消耗方面的挑战。通过系统文献综述,提出了多种方法来加快LLM的训练和推理,同时保持准确性。研究表明,可以在不损失性能的情况下,显著降低计算和内存成本,推动LLM的广泛应用。
Sep, 2024