一种语言及其维度:语言分形结构的内在维度
我们研究了语言的分形结构,旨在提供一个精确的形式化方法来量化以前可能存在但尚未正式显示的属性。基于我们的发现,我们认为语言具有自相似性,表现出任何粒度级别的复杂性,并且没有特定的上下文长度;并且具有长程依赖性,其 Hurst 参数约为 H = 0.70。我们还证明了分形参数在预测后续表现方面优于困惑度为基础的每字节比特(BPB)。希望这些发现为语言和语言模型的成功背后的机制提供了新的视角。
Feb, 2024
该研究分析了长篇人类语言记录的分形结构,通过将大样本的文本映射到时间序列来实现,结果证实在大型书面语言样本中存在长程相关性,而这种相关性可以通过采用以单词为基本通讯单位的语言基础启发的特定映像实现。
Jan, 2002
使用 Grassberger-Procaccia 算法和 Fisher-Rao 距离,测量了自然语言的相关维数,并证明了语言具有多分形性质,具有全局自相似性和普遍维数约为 6.5,大于简单离散随机序列的维数但小于 Barabasi-Albert 进程的维数,同时长时记忆是产生自相似性的关键。这种方法适用于任何真实世界离散序列的概率模型,并展示了音乐数据的应用。
May, 2024
研究了神经语言模型、翻译模型和语言标注任务中学习到的表示之间的关系,发现了一种低维的语言表示嵌入模型,可以编码处理各种 NLP 任务所需的表示之间的关系,并且可以用来预测各种特征空间与人类大脑对自然语言刺激的响应之间的映射关系,同时主要维度可以用于创建显示大脑的语言处理层次结构的度量。
Jun, 2021
深度学习中超参数化神经网络的泛化缺口、分形维度、持续同调维度、模型的双下降等方面进行了广泛的研究评估,通过观察发现,残差参数向量的 L2 范数与泛化缺口之间有更强的相关性。该研究为进一步探索分形几何、拓扑数据分析和神经网络优化之间的因果关系奠定了基础。
Jun, 2024
本文探讨了人类自然语言结构如何成为相互之间交流编码演化的产物,以最大化文化不可知和跨语言度量,如反熵,压缩因子和交叉分割 F1 得分,并在超参数空间中执行元学习,通过最大化上述度量,实现自然语言学习。文中介绍了针对俄语,英语和汉语的跨语言单词级分割分词研究,以及对英语的子词分割或形态分析研究的初步结果。研究发现,从分词到分词中可以发现,这些度量驱动着语言结构,反熵更相关于英语和俄语,而压缩因子更适用于中国。对于英语词汇表的子词分割或形态分析的研究揭示了压缩和压缩因子之间存在直接联系,而惊讶的是,与反熵的相同联系却变成了相反。
Jun, 2023
本文从几个角度综合了各种主张,提出了一种独特的语言学派,将数学几何观点引入到语法中,描述了一种基于几何学的机制,用于解释人类语言里的显著特征,并提出了一种新型的匹配方法,利用代表单词的标记链来形成句子,并匹配语法词序。最终得到的二维和三维结合体为以往传统语法体系难以准确描述的语言规则提供了一种新视角。
Mar, 2023
本文讨论了自然语言处理系统中之前探测语言结构方法的缺陷,并提出了基于多元高斯探针的内在探测框架,以便于检测词向量的语言信息。通过 36 种语言的实验证明,多数形态语法特征由少数神经元可靠编码,而 fastText 相较于 BERT 更加集中其语言结构。
Oct, 2020