Apr, 2024

语言模型的物理学:第 3.3 部分,知识容量的规模律

TL;DR通过多个受控数据集,我们建立了一种语言模型可以存储每个参数 2 比特知识的估计方法。此外,我们介绍了关于训练持续时间、模型体系结构、量化、稀疏约束以及数据信噪比如何影响模型的知识存储能力的 12 个结果。