语言模型预训练中的学习曲线特征：学习、遗忘和稳定性

Aug, 2023

语言模型预训练中的学习曲线特征：学习、遗忘和稳定性

Characterizing Learning Curves During Language Model Pre-Training: Learning, Forgetting, and Stability

Tyler A. Chang, Zhuowen Tu, Benjamin K. Bergen

TL;DR语言模型在预训练时如何学习进行预测？通过提取来自五个自回归英语语言模型预训练运行的学习曲线，我们观察到语言模型在学习生成更长更连贯的文本前会生成短重复短语。我们量化了上下文中个体标记的学习曲线的最终惊奇度、运行内变异度、习得年龄、忘却度以及跨运行的变异度。频率更高的标记达到更低的最终惊奇度，在预训练运行内外变异度更小，更早被学习，而且在预训练过程中更不容易被遗忘。更高的 n-gram 概率进一步强化了这些影响。与目标标记无关，较短且更频繁的上下文与稍微更稳定和更快习得的预测相关。词类的影响也较小，尽管名词倾向于比动词、副词和形容词后习得且更不稳定。我们的工作有助于更好地理解语言模型预训练动态并为稳定的语言模型的应用提供指导。

Abstract

How do language models learn to make predictions during pre-training? To study this question, we extract learning curves from five autoreg

language models pre-training learning curves surprisal tokens

发现论文，激发创造

大型语言模型隐式学习将神经句子轨迹纠正为自然语言的预测性表示

用于预测的自回归变换器的预测表示通过逐渐变得更加直线化来实现更好的语言建模性能，并与句子的惊异程度之间存在一致的关系。

Nov, 2023

语言模型性能度量在心理语言学建模中的应用：人们阅读行为的概率预测

通过对现代神经结构的分析，提出一种新的语言建模表现度量并与人类主观认知语言处理结果的相关性来重新评估 Goodkind 和 Bicknell（2018 年）的观点，证明了一种基于困惑度的语言模型能否对阅读时间进行建模的线性假设不适用于 LSTM 网络，变形器和预训练模型。

Sep, 2020

记忆力强还是弱？深入探究语言模型记忆机制

对预训练语言模型进行了多种实验，发现预训练模型有助于保持记忆，而非预训练的神经网络具有遗忘的问题，并且知识相关性和多样性会显着影响记忆形成。这些结论有助于了解预训练模型的能力，同时也为语言模型的新学习和推断算法的设计和评估提供了启示。

May, 2023

神经语言模型中的词汇习得

研究神经语言模型在训练过程中如何获取单词，并提取 MacArthur-Bates 交际发展清单上 600 多个单词的学习曲线和获取年龄。与儿童的单词获取研究结合，评估 LSTMs、BERT 和 GPT-2 模型的多种预测因素，发现模型对单词频率的依赖程度远高于儿童，但与儿童相似的是，它们在更长的话语中学习单词较慢。同时，模型在训练过程中遵循一致的模式，这些结果为人类语言模型的更类人化语言习得提供了启示。

Oct, 2021

神经语言模型中近似短期记忆的特征化

该研究考察了语言模型在处理文本时是否能够检索先前出现的确切单词，并发现 transformers 模型可以从第一次出现的名词清单中提取词语的身份和排序，而 LSTM 模型则更加侧重于先前单词的语义要点，以及其与列表中其他单词的关系。

Oct, 2022

神经语言模型的语法学习轨迹

本文探讨了神经语言模型学习语言现象（linguistic phenomena）的路径（learning trajectories），发现不同的模型尽管最终性能不同，但其学习习惯（inductive bias）相似，且在不同的学习阶段表现出相似的 “成长” 阶段，研究这些阶段可以帮助了解神经语言模型中的语言表示（linguistic representation）。

Sep, 2021

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

探索深度神经网络如何学习语言结构的理论

通过下一个词预测需要多少数据来学习语言的结构？我们通过一个概率上下文无关文法 (PCFG) 生成的合成数据集进行了研究，该文法是表示自然语言树状结构的层次生成模型。我们在模型中通过分析确定了词 - 词之间的相关性，并显示它们可以用来构建文法的隐藏变量表示，范围越长，变量越深。此外，有限的训练集限制了相关性的分辨率，其有效范围的大小随训练集的增大而增加。因此，使用越来越多的样本进行训练的语言模型可以建立更深入的文法结构表示，从而在问题的高维度下达到良好的性能。我们推测训练集大小与相关性的有效范围之间的关系不仅适用于合成数据集，而且适用于其他数据集。特别是，我们的推测预测了测试损失随训练集大小变化的缩放规律与上下文窗口长度的关系，我们通过莎士比亚剧作中的一系列台词进行了实证验证。

May, 2024

语言建模的课程学习

本研究探讨了使用语言学课程学习法对语言模型预训练的效果，并且在 GLUE 基准测试中评估了转移性能，结果显示我们并未找到令人信服的证据表明课程学习方法可以改善语言模型训练。

Aug, 2021

语言模型如何帮助解决下游任务的数学探索

本文通过数学研究自回归语言模型预训练在下游任务中的应用，提出了将分类任务转化为句子填充任务的假设，证实表现好的语言模型可以是有意义的预训练任务，并给出了相应的数学形式化，同时通过分析认为语言模型可以有助于线性解决分类任务。

Oct, 2020