Apr, 2024

一种可精确求解的涌现与缩放规律模型

TL;DR深度学习模型的发展速度、数据量和模型规模的增加会导致其展示出解决新问题的突然能力,这被称为发生现象。本文提出了一个基于技能的框架,其中每一项新能力都被表示为基函数。我们在这个技能基上解决了一个简单的多线性模型,并得到了与培训时间、数据量、模型规模和最佳计算(C)有关的新能力的出现以及丢失的尺度规律的解析表达式。我们将详细的计算结果与在多任务稀疏奇偶性训练数据上训练的两层神经网络的直接模拟进行了比较,其中数据集的任务分布符合幂律分布。我们的简单模型使用了单一的拟合参数,能够捕捉到神经网络中随着训练时间、数据量或模型规模增加而出现的多个新技能的 S 型发生现象。