Mar, 2024

语言模型的算法进展

TL;DR自 2012 年至 2023 年,使用 Wikitext 和 Penn Treebank 的 200 多个语言模型评估数据集,我们发现为达到一定性能门槛所需的计算量每 8 个月减少一半,置信区间为 5 到 14 个月,远快于 Moore 定律关于硬件提升的速度。我们估计了增强的缩放定律,可以量化算法进展并确定缩放模型与训练算法创新的相对贡献。尽管算法进展迅速且新架构(如变压器)的发展,我们的分析显示在这段时间内计算量对整体性能改进的贡献更大。尽管受噪声基准数据限制,我们的分析量化了语言建模的快速进展,并阐明了计算量与算法的相对贡献。