分形模式可能解开下一个令牌预测中的智能

Feb, 2024

分形模式可能解开下一个令牌预测中的智能

Fractal Patterns May Unravel the Intelligence in Next-Token Prediction

Ibrahim Alabdulmohsin, Vinh Q. Tran, Mostafa Dehghani

TL;DR我们研究了语言的分形结构，旨在提供一个精确的形式化方法来量化以前可能存在但尚未正式显示的属性。基于我们的发现，我们认为语言具有自相似性，表现出任何粒度级别的复杂性，并且没有特定的上下文长度；并且具有长程依赖性，其 Hurst 参数约为 H = 0.70。我们还证明了分形参数在预测后续表现方面优于困惑度为基础的每字节比特（BPB）。希望这些发现为语言和语言模型的成功背后的机制提供了新的视角。

Abstract

We study the fractal structure of language, aiming to provide a precise formalism for quantifying properties that may have been previously suspected but not formally shown. We establish that →

fractal structure language self-similar long-range dependent fractal parameters

发现论文，激发创造

文学语料库中的长程分形相关性

该研究分析了长篇人类语言记录的分形结构，通过将大样本的文本映射到时间序列来实现，结果证实在大型书面语言样本中存在长程相关性，而这种相关性可以通过采用以单词为基本通讯单位的语言基础启发的特定映像实现。

Jan, 2002

一种语言及其维度：语言分形结构的内在维度

该研究介绍了一种新的研究对象 - 语言分形结构，假设一个自然语言的所有 n-gram 嵌入构成了该分形集合的代表样本，通过使用基于拓扑数据分析和数据图的最小生成树方法估计俄语和英语语言分形结构的固有维度，结果发现对于俄语和英语语言，所有的 n 值的固有维度都是接近 9 的非整数值（典型的分形集合）。

Nov, 2023

自回归下一个单词预测器是通用学习者

大型语言模型在逻辑和数学推理方面显示出令人瞩目的能力，使它们能够解决复杂的任务。本文提出了一个理论框架来研究自回归的下一个标记预测器。我们证明，即使是简单的模型，如线性的下一个标记预测器在 Chain-of-Thought（CoT）数据上训练，也能有效地近似于图灵机计算的任何函数。我们引入了一个新的复杂度度量方法 —— 长度复杂度，它衡量了实现某个目标函数所需的 CoT 序列中的中间标记数，并分析了长度复杂度与其他复杂度概念之间的相互关系。最后，我们通过实验证明，简单的下一个标记预测器，如线性网络和浅层多层感知器（MLP），在文本生成和算术任务中显示出非平凡的性能。我们的结果表明，语言模型的强大能力很大程度上归功于自回归的下一个标记训练方案，而不一定取决于特定的架构选择。

Sep, 2023

自然语言的复杂系统方法

从复杂性科学的角度总结了自然语言研究中使用的主要方法概念，并记录了这些方法在识别语言的通用和系统特征方面的适用性。讨论了数量语言学中三个与复杂性相关的研究趋势，包括对文本中单词频率的研究、基于时间序列分析的方法应用于研究书面文本中的相关性、以及将网络形式主义应用于自然语言研究中。

Jan, 2024

超越词频：单词时间分布中的爆发、停滞和比例尺

本研究发现，单词之间发生的距离时间间隔符合 Weibull 分布，该结果对 Zipf's law 的假设提出了挑战，也对集体人类动态的显性表现具有重要影响。

Jan, 2009

探索深度神经网络如何学习语言结构的理论

通过下一个词预测需要多少数据来学习语言的结构？我们通过一个概率上下文无关文法 (PCFG) 生成的合成数据集进行了研究，该文法是表示自然语言树状结构的层次生成模型。我们在模型中通过分析确定了词 - 词之间的相关性，并显示它们可以用来构建文法的隐藏变量表示，范围越长，变量越深。此外，有限的训练集限制了相关性的分辨率，其有效范围的大小随训练集的增大而增加。因此，使用越来越多的样本进行训练的语言模型可以建立更深入的文法结构表示，从而在问题的高维度下达到良好的性能。我们推测训练集大小与相关性的有效范围之间的关系不仅适用于合成数据集，而且适用于其他数据集。特别是，我们的推测预测了测试损失随训练集大小变化的缩放规律与上下文窗口长度的关系，我们通过莎士比亚剧作中的一系列台词进行了实证验证。

May, 2024

抽象学习者学习语义语言的数学理论

利用密度演化分析，我们提出了一种数学理论来解释学习技能的产生，当训练文本的大小与技能数量的比例超过一定阈值时，展示了学习技能的出现。在训练完成后，我们提出了一种语义压缩方法，并讨论了其在语义通信中的应用。

Apr, 2024

大型语言模型作为通用模式机

使用预训练语言模型实现模式补全、序列建模、机器人控制等任务。

Jul, 2023

量化语言和用户行为中的长程依赖以改进循环神经网络

该研究采用基于 LRD 理论的可靠估计程序，针对含有百万条数据的符号序列数据集测量了 LRD，并表明 LRD 更好地指导 RNN 的建模，这为新的设计提供了灵感，从而实现了在语言理解和顺序推荐领域的最新成果，计算成本只是很小的一部分。

May, 2019

从顺序信息处理的瓶颈中获取语言结构

人类语言是一种独特的自然界沟通方式，其系统性在于信号可以分解为词汇并通过一种规则方式组合成句子，且通过最小化过剩熵的方式实现自然语言一致性，进而达到高效的沟通和信息处理。

May, 2024