ENTP:仅编码器的下一个token预测
大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力,使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明,即使是简单的模型,如线性的下一个标记预测器在Chain-of-Thought(CoT)数据上训练,也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法——长度复杂度,它衡量了实现某个目标函数所需的CoT序列中的中间标记数,并分析了长度复杂度与其他复杂度概念之间的相互关系。最后,我们通过实验证明,简单的下一个标记预测器,如线性网络和浅层多层感知器(MLP),在文本生成和算术任务中显示出非平凡的性能。我们的结果表明,语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案,而不一定取决于特定的架构选择。
Sep, 2023
通过模型中的autoregressive inference和teacher-forced training两个关键阶段的独立处理来解决关于next-token预测的问题,研究揭示了在特定类的任务中,teacher-forcing不仅可能在autoregressive inference阶段出现错误叠加的问题,还可能在首次学习过程中就无法准确预测下一个token的问题。研究通过实验证明了这一问题,并提出通过预测多个token来解决这一失败情况的初步证据。这一发现希望能够引发关于next-token预测范式之外的讨论和探索。
Mar, 2024
自我注意力机制通过梯度下降训练能够学习自动生成下一个标记符号的自动机,其中学习步骤分为硬检索和软组合,梯度下降隐式地发现强连接组件并选择高优先级组件,以加工序列数据。
Mar, 2024
使用无意义的填充符号可以替代思维链,解决无法通过直接回答进行的两个难算法任务,但需要具体、密集的监督;同时,中间符号作为填充符号引发了对大型语言模型进行难以审查、隐藏计算的担忧。
Apr, 2024
我们建议通过训练语言模型来预测多个未来标记,以提高样本利用效率,并对其下游能力进行改进,特别是在多词预测作为辅助训练任务时,在代码和自然语言生成模型方面获得了显著的改善。
Apr, 2024
给定一个令牌序列,如单词,下一个令牌预测的任务是预测下一个令牌的条件概率分布。我们针对仅编码器的transformer模型的性质进行了研究,并证明了该模型可以插值下一个令牌分布的最大上下文序列的上下界,其中下界只需最小的参数数量即可实现。
May, 2024
本研究解决了现有文献对变压器在下一个标记预测(NTP)任务中表现理论理解的不足,提出了一种细致的非渐近分析方法。研究设计了一个两阶段的训练算法,证明了变压器具有显著的预测能力,尤其是在数据集迁移时,揭示了变压器卓越的泛化性能。
Sep, 2024
本研究解决了现有对Transformer模型在下一个token预测(NTP)任务性能理论理解不足的问题,尤其是在非渐近性能方面。通过数学框架分析训练数据集结构特性,并设计了一个两阶段训练算法,结果表明Transformer在数据集变化下仍展现出非平凡的预测能力,从而突显了其优秀的泛化性能。
Sep, 2024
本研究解决了变压器在自回归学习中下一个令牌预测能力机制不明的问题。我们提出了一种新的因果核优化方法,能够明确地通过之前及当前的观测预测下一个令牌,并展示了其实验结果验证了理论发现,表明该方法对一般映射的适用性。
Oct, 2024
本研究解决了生成语言模型在单一标记预测中可能忽略序列整体含义的问题。提出了一种新的预训练方法——未来标记预测(FTP),通过生成每个标记位置的嵌入向量,改进了长文本序列的整体语义捕捉。研究发现,FTP模型生成的文本在主题连贯性和文本分类上均优于传统的GPT模型。
Oct, 2024