Aug, 2023

语言模型预训练中的学习曲线特征:学习、遗忘和稳定性

TL;DR语言模型在预训练时如何学习进行预测?通过提取来自五个自回归英语语言模型预训练运行的学习曲线,我们观察到语言模型在学习生成更长更连贯的文本前会生成短重复短语。我们量化了上下文中个体标记的学习曲线的最终惊奇度、运行内变异度、习得年龄、忘却度以及跨运行的变异度。频率更高的标记达到更低的最终惊奇度,在预训练运行内外变异度更小,更早被学习,而且在预训练过程中更不容易被遗忘。更高的 n-gram 概率进一步强化了这些影响。与目标标记无关,较短且更频繁的上下文与稍微更稳定和更快习得的预测相关。词类的影响也较小,尽管名词倾向于比动词、副词和形容词后习得且更不稳定。我们的工作有助于更好地理解语言模型预训练动态并为稳定的语言模型的应用提供指导。