下一个标记预测中的物理学
本文继续研究适用于归纳推理系统的体积和能量测量,扩展了AIT中的逻辑深度和概念跳跃大小测量到随机问题和涉及体积和能量的物理测量,介绍了计算复杂性的图形模型,展示出归纳推理的能量、逻辑深度和计算体积之间的一些渐近关系,引入了基于能量限制的算法熵,并简要讨论了我们宇宙中智能计算的物理极限。
Apr, 2015
本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。
Feb, 2022
大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力,使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明,即使是简单的模型,如线性的下一个标记预测器在Chain-of-Thought(CoT)数据上训练,也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法——长度复杂度,它衡量了实现某个目标函数所需的CoT序列中的中间标记数,并分析了长度复杂度与其他复杂度概念之间的相互关系。最后,我们通过实验证明,简单的下一个标记预测器,如线性网络和浅层多层感知器(MLP),在文本生成和算术任务中显示出非平凡的性能。我们的结果表明,语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案,而不一定取决于特定的架构选择。
Sep, 2023
利用渐进式下降算法在NTP训练中获得最佳性能解决方案,研究了梯度下降方法在NTP训练中的偏向性和最优解相关性,并提出了进一步研究的方向,以更好地理解使用NTP进行训练的模型的优化、泛化和鲁棒性原则。
Feb, 2024
通过模型中的autoregressive inference和teacher-forced training两个关键阶段的独立处理来解决关于next-token预测的问题,研究揭示了在特定类的任务中,teacher-forcing不仅可能在autoregressive inference阶段出现错误叠加的问题,还可能在首次学习过程中就无法准确预测下一个token的问题。研究通过实验证明了这一问题,并提出通过预测多个token来解决这一失败情况的初步证据。这一发现希望能够引发关于next-token预测范式之外的讨论和探索。
Mar, 2024
通过建立信息论基础,我们研究了神经缩放定律,并揭示了在无限宽度的两层神经网络生成的数据中,数据和模型大小的最佳关系大致呈线性,进一步验证了大规模的实证研究结果。
Jun, 2024
通过对无监督学习装置进行简单的元架构调整,我们提出了精确预测信息可以作为能源的概念,从而使无人驾驶学习的新方法得以实现,这种能量源自一系列成功的预测,可以作为即时的激励和资源循环利用,在AI代理中推动预测能力的提升。通过以自动编码器为例,我们阐述了这一概念示例,并展示了渐进的范式转变如何深刻改变我们对学习和智能的理解,将学习重新构想为寻求能量的过程,从而强调实现学习系统真正自主的潜力,从而弥合算法概念与智能物理模型之间的差距。
Feb, 2024
本研究解决了现有文献对变压器在下一个标记预测(NTP)任务中表现理论理解的不足,提出了一种细致的非渐近分析方法。研究设计了一个两阶段的训练算法,证明了变压器具有显著的预测能力,尤其是在数据集迁移时,揭示了变压器卓越的泛化性能。
Sep, 2024
本研究解决了现有对Transformer模型在下一个token预测(NTP)任务性能理论理解不足的问题,尤其是在非渐近性能方面。通过数学框架分析训练数据集结构特性,并设计了一个两阶段训练算法,结果表明Transformer在数据集变化下仍展现出非平凡的预测能力,从而突显了其优秀的泛化性能。
Sep, 2024