大型语言模型隐式学习将神经句子轨迹纠正为自然语言的预测性表示

Nov, 2023

大型语言模型隐式学习将神经句子轨迹纠正为自然语言的预测性表示

Large language models implicitly learn to straighten neural sentence trajectories to construct a predictive representation of natural language

PDF

Eghbal A. Hosseini, Evelina Fedorenko

TL;DR用于预测的自回归变换器的预测表示通过逐渐变得更加直线化来实现更好的语言建模性能，并与句子的惊异程度之间存在一致的关系。

Abstract

Predicting upcoming events is critical to our ability to interact with our environment. Transformer models, trained on next-word prediction, appear to construct representations of linguistic input that can support diverse downstream tasks. But how does a predictive objective shape such

predictive representations autoregressive transformers trajectory straightening hypothesis next-word prediction language modeling performance

发现论文，激发创造

语言模型预训练中的学习曲线特征：学习、遗忘和稳定性

语言模型在预训练时如何学习进行预测？通过提取来自五个自回归英语语言模型预训练运行的学习曲线，我们观察到语言模型在学习生成更长更连贯的文本前会生成短重复短语。我们量化了上下文中个体标记的学习曲线的最终惊奇度、运行内变异度、习得年龄、忘却度以及跨运行的变异度。频率更高的标记达到更低的最终惊奇度，在预训练运行内外变异度更小，更早被学习，而且在预训练过程中更不容易被遗忘。更高的 n-gram 概率进一步强化了这些影响。与目标标记无关，较短且更频繁的上下文与稍微更稳定和更快习得的预测相关。词类的影响也较小，尽管名词倾向于比动词、副词和形容词后习得且更不稳定。我们的工作有助于更好地理解语言模型预训练动态并为稳定的语言模型的应用提供指导。

Aug, 2023

自回归模型中的轨迹意义表示

我们提出了一种从自回归语言模型中提取含义表示的方法，通过考虑扩展输入文本的所有可能轨迹的分布来实现。这种策略是无提示的，不需要微调，并且适用于任何预训练的自回归模型。此外，与基于向量的表示不同，基于分布的表示还可以通过使用似然函数之间的代数运算来建模非对称关系（例如，逻辑蕴含的方向，上位词 / 下位词关系）。这些思想扎根于语义上的分布观点，并与自动机理论中的标准构造相连接，但据我们所知，它们尚未应用于现代语言模型。我们通过实验证明，从大型模型获得的表示与人类注释相匹配，比其他零样本和无提示方法在语义相似性任务上表现更好，并且可以用于解决标准嵌入不能处理的更复杂的蕴含和包含任务。最后，我们将我们的方法扩展到使用多模态自回归模型表示来自不同模态（例如，图像和文本）的数据。

Oct, 2023

语言模型如何帮助解决下游任务的数学探索

本文通过数学研究自回归语言模型预训练在下游任务中的应用，提出了将分类任务转化为句子填充任务的假设，证实表现好的语言模型可以是有意义的预训练任务，并给出了相应的数学形式化，同时通过分析认为语言模型可以有助于线性解决分类任务。

Oct, 2020

Transformer 模型在上下文自回归学习中的性能表现

基于 Transformer 模型的研究探讨其训练和预测过程中生成下一个 token 的方式，同时研究了正交矩阵和位置编码对于模型性能的影响。

Feb, 2024

神经语言模型的语法学习轨迹

本文探讨了神经语言模型学习语言现象（linguistic phenomena）的路径（learning trajectories），发现不同的模型尽管最终性能不同，但其学习习惯（inductive bias）相似，且在不同的学习阶段表现出相似的 “成长” 阶段，研究这些阶段可以帮助了解神经语言模型中的语言表示（linguistic representation）。

Sep, 2021

LATTE: 语言轨迹转换器

该研究提出了一个灵活的基于语言的框架，使用自然语言输入和场景图像处理机器人运动指令，通过预先训练的语言模型和变压器编码器网络生成目标几何特征，然后使用变压器解码器生成轨迹，无需任何先验知识。在复杂环境下，仿真和实际实验表明，该系统可以成功地跟随人类意图，修改轨迹的形状和速度。

Aug, 2022

语言模型与脑部对齐：超越词级语义和预测

本文探讨使用众多的文本数据训练出来的预训练语言机器，对人脑语言理解的预测能力。研究发现，这两者之间的相似性是由下个词的预测机制引起的。作者的实验发现，对机器的语料库进行特定的自然文本刺激文本预测下个词，可以显著提高他们与大脑记录的对齐程度。然而，他们指出与大脑记录对齐的提高不仅仅是由于词汇级别或多词级别语义的改善，他们通过调整词序进一步证实这一点。

Dec, 2022

大型語言模型中線性表示的起源

高层语义概念在大型语言模型的表示空间中按线性方式编码；本研究通过引入简单的潜在变量模型来研究这种线性表示的起源，并证明了下一个标记预测目标和梯度下降的隐式偏差共同促进了概念的线性表示。

Mar, 2024

语言模型是否对未来的标记进行计划？

transformers 在推断期间是否有预先思考。我们提出了两种解释：预缓存和面包屑。通过训练语言模型来测试这些假设，我们在合成数据设置和自回归语言建模设置中找到了明确的证据。

Apr, 2024

自回归下一个单词预测器是通用学习者

大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力，使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明，即使是简单的模型，如线性的下一个标记预测器在 Chain-of-Thought（CoT）数据上训练，也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法 —— 长度复杂度，它衡量了实现某个目标函数所需的 CoT 序列中的中间标记数，并分析了长度复杂度与其他复杂度概念之间的相互关系。最后，我们通过实验证明，简单的下一个标记预测器，如线性网络和浅层多层感知器（MLP），在文本生成和算术任务中显示出非平凡的性能。我们的结果表明，语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案，而不一定取决于特定的架构选择。

Sep, 2023