人类语音是否遵循本福德定律?
通过定量研究中国房地产的财务报表,本文深入探讨数字定律,不仅对第一位数字进行分析,还描绘了数字的另外两个维度:频率和长度。研究结果超越了对数据操纵的简单理解,为数字多样性和使用洞察力的界定打开了新的讨论空间。这项研究具有经济意义,能够促进对数字现象的更深刻理解。
Sep, 2023
基于单词组成短语是语言中最基本的意义单元的简单观察,我们利用一种基于统计力学的可靠文本分区方法,将短语的 Zipf 定律拓展了九个数量级,使得文本分析得以更加严谨和广泛地进行。
Jun, 2014
本文描述了一种用于自然语言中的泰勒定律度量的新方法,并对跨 14 种语言的 1100 个文本进行了分析,发现书面自然语言文本的泰勒指数呈现几乎相同的值,同时,还比较了其他语言相关数据的泰勒指数,结果显示出泰勒指数可用于量化语言时间序列的基本结构复杂性,文章还展示了这些发现在评估语言模型方面的适用性。
Apr, 2018
本研究发现,单词之间发生的距离时间间隔符合 Weibull 分布,该结果对 Zipf's law 的假设提出了挑战,也对集体人类动态的显性表现具有重要影响。
Jan, 2009
通过研究三种版本的 Zipf 定律并将它们拟合到 Project Gutenberg 数据库中所有可用的英文文本中,我们发现其中一种版本的 Zipf 定律在整个频率域内(从 1 到最大值)仅用一个自由参数就能拟合数据库中超过 40%的文本。
Sep, 2015
通过优化编码方法,本文提出了一种新的针对语言词频的 Zipf 定律推导方式,该推导结构类似于曼德布洛特的随机打字模型,但具有多个优点,可以启发对语言其他统计定律的研究,从而进一步解释其产生动机,如简单易懂和快速交流等。
May, 2016
通过研究幂律分布的性质以及当群体有限且等级和数量为自然数时出现的类似分布,讨论了 Zipf 定律的解释存在的问题,揭示了一些 Big Data 中的现象是大量数据的性质所引起的。
May, 2023
通过大型文本数据库的统计分析与简单随机模型的结合,解释了单词频率统计中的尺度律出现原因及其涵义,模型表示词频分布服从 Zipf's Law,并且单词的频率受到文章主题模型中波动的影响。同时,该文章还对词汇丰富度进行了测量和分析。
Jun, 2014
文章回顾并批评性讨论了用于描述语言统计规律的通用定律,证明了它们所包含的同时性和独立性等简化统计假设不一定总是成立,阐述了语言定律只有与文本的生成模型结合使用才具有意义和可证伪性,并使用大型数据库的文本生成检验了这些假设的效果并测得大于预期的波动量。
Feb, 2015