自然语言中的排名频率关系的重要参数
该研究论文阐述了对于正则文法的符号间互信息随符号间距离指数衰减的特性,然而对于上下文无关文法则符合幂律分布;并且将该现象与统计力学、湍流以及宇宙膨胀等领域的幂律相关性做了联系,以及阐述了这种现象在机器学习中的潜在应用。除此之外,该研究论文还提出了一种合理的互信息量的量化方式,并探讨了该现象在更复杂的贝叶斯网络中的推广。
Jun, 2016
通过分析日本博客文章并使用扩展的 Logistic 方程式,研究了新词汇在全国性在线社交媒体上的增长模式和趋势,并发现了新词汇增长的模式与传统复杂系统的逻辑函数有所不同,同时对 Google Trends 数据进行了验证。
Nov, 2022
大型、数据庞大的基于 Transformer 的语言模型对于罕见单词的预测更加准确,从而导致它们的意外度估计与人类的阅读时间相关性降低。
Feb, 2024
本研究对过去两个世纪出版的几百万本书的 15 亿余个单词进行了分析,发现单词使用频率的分布有两个不同的尺度,且随着语料库的增大,新词的需求呈减少趋势,这种 ' 冷却模式 ' 成为第三个动态的统计规律。
Dec, 2012
通过大型文本数据库的统计分析与简单随机模型的结合,解释了单词频率统计中的尺度律出现原因及其涵义,模型表示词频分布服从 Zipf's Law,并且单词的频率受到文章主题模型中波动的影响。同时,该文章还对词汇丰富度进行了测量和分析。
Jun, 2014
本研究发现,单词之间发生的距离时间间隔符合 Weibull 分布,该结果对 Zipf's law 的假设提出了挑战,也对集体人类动态的显性表现具有重要影响。
Jan, 2009
通过研究三种版本的 Zipf 定律并将它们拟合到 Project Gutenberg 数据库中所有可用的英文文本中,我们发现其中一种版本的 Zipf 定律在整个频率域内(从 1 到最大值)仅用一个自由参数就能拟合数据库中超过 40%的文本。
Sep, 2015
本文通过随机动力学模型研究了文字 Zipf 定律的起源,并且阐述了该定律在人类语言中的语言学关联性。我们提出的模型结合了与语言结构相关的特征和长时间连续性文本生成过程中内在的记忆效应。研究结果表明,我们的模型的乘性动力学产生的等级 - 频率分布量化结果与实验数据定量一致。
Dec, 2002