一种语言及其维度：语言分形结构的内在维度

Nov, 2023

一种语言及其维度：语言分形结构的内在维度

A Language and Its Dimensions: Intrinsic Dimensions of Language Fractal Structures

Vasilii A. Gromov, Nikita S. Borodin, Asel S. Yerbolova

TL;DR该研究介绍了一种新的研究对象 - 语言分形结构，假设一个自然语言的所有 n-gram 嵌入构成了该分形集合的代表样本，通过使用基于拓扑数据分析和数据图的最小生成树方法估计俄语和英语语言分形结构的固有维度，结果发现对于俄语和英语语言，所有的 n 值的固有维度都是接近 9 的非整数值（典型的分形集合）。

Abstract

The present paper introduces a novel object of study - a language fractal structure. We hypothesize that a set of embeddings of all $n$-grams of a natural language constitutes a representative sample of this fractal set. (We use the term →

language fractal structure embeddings hailonakea topological data analysis intrinsic dimensions

发现论文，激发创造

使用正式概念分析评估自然语言的内在维度

计算实验确定孟加拉语和俄语语言变体的内在维度，并发现内在维度显著低于自然语言处理中常用的神经网络模型的维度。

Nov, 2023

分形模式可能解开下一个令牌预测中的智能

我们研究了语言的分形结构，旨在提供一个精确的形式化方法来量化以前可能存在但尚未正式显示的属性。基于我们的发现，我们认为语言具有自相似性，表现出任何粒度级别的复杂性，并且没有特定的上下文长度；并且具有长程依赖性，其 Hurst 参数约为 H = 0.70。我们还证明了分形参数在预测后续表现方面优于困惑度为基础的每字节比特（BPB）。希望这些发现为语言和语言模型的成功背后的机制提供了新的视角。

Feb, 2024

文学语料库中的长程分形相关性

该研究分析了长篇人类语言记录的分形结构，通过将大样本的文本映射到时间序列来实现，结果证实在大型书面语言样本中存在长程相关性，而这种相关性可以通过采用以单词为基本通讯单位的语言基础启发的特定映像实现。

Jan, 2002

在统计多概况中的自然语言相关维度

使用 Grassberger-Procaccia 算法和 Fisher-Rao 距离，测量了自然语言的相关维数，并证明了语言具有多分形性质，具有全局自相似性和普遍维数约为 6.5，大于简单离散随机序列的维数但小于 Barabasi-Albert 进程的维数，同时长时记忆是产生自相似性的关键。这种方法适用于任何真实世界离散序列的概率模型，并展示了音乐数据的应用。

May, 2024

语言表征空间中的低维结构在大脑响应中有所体现

研究了神经语言模型、翻译模型和语言标注任务中学习到的表示之间的关系，发现了一种低维的语言表示嵌入模型，可以编码处理各种 NLP 任务所需的表示之间的关系，并且可以用来预测各种特征空间与人类大脑对自然语言刺激的响应之间的映射关系，同时主要维度可以用于创建显示大脑的语言处理层次结构的度量。

Jun, 2021

词嵌入的形状：通过拓扑数据分析识别语言谱系

通过使用形式上标记的嵌入的形状之间的距离矩阵，利用持久同调的概念，对 81 种印欧语言进行语言进化树的重建。

Mar, 2024

关于分形维数作为泛化度量的局限性

深度学习中超参数化神经网络的泛化缺口、分形维度、持续同调维度、模型的双下降等方面进行了广泛的研究评估，通过观察发现，残差参数向量的 L2 范数与泛化缺口之间有更强的相关性。该研究为进一步探索分形几何、拓扑数据分析和神经网络优化之间的因果关系奠定了基础。

Jun, 2024

高效符号通信码的演化

本文探讨了人类自然语言结构如何成为相互之间交流编码演化的产物，以最大化文化不可知和跨语言度量，如反熵，压缩因子和交叉分割 F1 得分，并在超参数空间中执行元学习，通过最大化上述度量，实现自然语言学习。文中介绍了针对俄语，英语和汉语的跨语言单词级分割分词研究，以及对英语的子词分割或形态分析研究的初步结果。研究发现，从分词到分词中可以发现，这些度量驱动着语言结构，反熵更相关于英语和俄语，而压缩因子更适用于中国。对于英语词汇表的子词分割或形态分析的研究揭示了压缩和压缩因子之间存在直接联系，而惊讶的是，与反熵的相同联系却变成了相反。

Jun, 2023

语言的几何学

本文从几个角度综合了各种主张，提出了一种独特的语言学派，将数学几何观点引入到语法中，描述了一种基于几何学的机制，用于解释人类语言里的显著特征，并提出了一种新型的匹配方法，利用代表单词的标记链来形成句子，并匹配语法词序。最终得到的二维和三维结合体为以往传统语法体系难以准确描述的语言规则提供了一种新视角。

Mar, 2023

基于维度选择的内在探测

本文讨论了自然语言处理系统中之前探测语言结构方法的缺陷，并提出了基于多元高斯探针的内在探测框架，以便于检测词向量的语言信息。通过 36 种语言的实验证明，多数形态语法特征由少数神经元可靠编码，而 fastText 相较于 BERT 更加集中其语言结构。

Oct, 2020