隐喻语言变化是自组织临界性
本研究发现,单词之间发生的距离时间间隔符合Weibull分布,该结果对Zipf's law的假设提出了挑战,也对集体人类动态的显性表现具有重要影响。
Jan, 2009
通过评估PPMI,SVD和word2vec等词嵌入模型来量化语义变化的方法,我们提出并验证了语义演化的两个定量化规律:与频率呈反幂律相关的语义变化率规律和与多义性无关的语义变化率规律。
May, 2016
该研究论文阐述了对于正则文法的符号间互信息随符号间距离指数衰减的特性,然而对于上下文无关文法则符合幂律分布;并且将该现象与统计力学、湍流以及宇宙膨胀等领域的幂律相关性做了联系,以及阐述了这种现象在机器学习中的潜在应用。除此之外,该研究论文还提出了一种合理的互信息量的量化方式,并探讨了该现象在更复杂的贝叶斯网络中的推广。
Jun, 2016
本研究探讨符号学中的语言符号与其语义之间的关系,使用互信息和循环神经网络量化了符号的系统性,并在106种语言中进行了数据驱动和大规模的研究,结果表明,在表征有语义的单词形式时,熵有显著的降低,但是系统性和任意性间存在平衡关系。
Jun, 2019
该研究使用多语言数据集探索预训练语言模型中所编码的隐喻性信息,结果显示这些模型的中间层主要包含了隐喻性知识,并且该知识在多语言和多数据集中具有泛化性。
Mar, 2022
介绍了FiLex,这是一种自我加强的随机过程,可以模拟语言实验中的有限词汇。FiLex的核心特性是它是一种自我加强的过程,类似于一个词在语言中使用的越多,它的使用就会越多的直觉。FiLex作为一个理论模型,既可以解释又可以预测新兴语言系统的行为。我们在实践中测试到FiLex捕获新兴语言的超参数与词汇的香农熵之间关系的能力。
Jun, 2022
语义演化受到多种因素的影响,但我们发现,在五种印欧语族的语言中,语义演化普遍具有强烈的次扩散特征。使用一种自动化的历时分布语义嵌入管道,我们控制底层对称性, 通过随机行走模型, 发现词在意义空间中遵循随机轨迹, 并呈现出 anomalous subdiffusive 特性。我们发现保留变化方向中的时间相关性是必要的,同时变化尺度的相关性也发挥着重要作用。我们进一步表明,强次扩散是一种具有许多数据分析和解释选择的稳健现象。
Sep, 2022
从复杂性科学的角度总结了自然语言研究中使用的主要方法概念,并记录了这些方法在识别语言的通用和系统特征方面的适用性。讨论了数量语言学中三个与复杂性相关的研究趋势,包括对文本中单词频率的研究、基于时间序列分析的方法应用于研究书面文本中的相关性、以及将网络形式主义应用于自然语言研究中。
Jan, 2024
我们研究了语言的分形结构,旨在提供一个精确的形式化方法来量化以前可能存在但尚未正式显示的属性。基于我们的发现,我们认为语言具有自相似性,表现出任何粒度级别的复杂性,并且没有特定的上下文长度;并且具有长程依赖性,其Hurst参数约为H = 0.70。我们还证明了分形参数在预测后续表现方面优于困惑度为基础的每字节比特(BPB)。希望这些发现为语言和语言模型的成功背后的机制提供了新的视角。
Feb, 2024
使用GPT-2,我们通过数值演示证明了低温和高温两种状态下大型语言模型产生的句子的差异不是平滑变化的,而是具有奇异、发散的统计特征,且关键行为随着过渡温度出现,这些关键行为在自然语言数据集中也有表现。我们还讨论了几个度量临界性质的统计量对于评估大型语言模型的性能应该是有用的。
Jun, 2024