Feb, 2024

尾巴的故事:模型崩塌作为比例定律的变化

TL;DRAI 模型规模扩大时,神经缩放定律成为预测大型模型在增加容量和原始(人工或自然)训练数据大小时改进的关键工具。然而,流行模型的广泛使用意味着在线数据和文本的生态系统将逐渐含有越来越多的合成数据。本文通过缩放定律的观点开发了一个有关模型崩溃的理论框架,发现了一系列衰变现象,包括缩放的损失、与代数数量的缩放的变化、技能的 “损失” 以及混合人工和合成数据时的理解。我们通过对一个算术任务和使用大型语言模型 Llama2 进行的文本生成的大规模实验验证了我们的理论。