单词频率统计中的尺度律和波动
本研究发现,单词之间发生的距离时间间隔符合 Weibull 分布,该结果对 Zipf's law 的假设提出了挑战,也对集体人类动态的显性表现具有重要影响。
Jan, 2009
本研究对过去两个世纪出版的几百万本书的 15 亿余个单词进行了分析,发现单词使用频率的分布有两个不同的尺度,且随着语料库的增大,新词的需求呈减少趋势,这种 ' 冷却模式 ' 成为第三个动态的统计规律。
Dec, 2012
本文通过随机动力学模型研究了文字 Zipf 定律的起源,并且阐述了该定律在人类语言中的语言学关联性。我们提出的模型结合了与语言结构相关的特征和长时间连续性文本生成过程中内在的记忆效应。研究结果表明,我们的模型的乘性动力学产生的等级 - 频率分布量化结果与实验数据定量一致。
Dec, 2002
通过研究三种版本的 Zipf 定律并将它们拟合到 Project Gutenberg 数据库中所有可用的英文文本中,我们发现其中一种版本的 Zipf 定律在整个频率域内(从 1 到最大值)仅用一个自由参数就能拟合数据库中超过 40%的文本。
Sep, 2015
文章回顾并批评性讨论了用于描述语言统计规律的通用定律,证明了它们所包含的同时性和独立性等简化统计假设不一定总是成立,阐述了语言定律只有与文本的生成模型结合使用才具有意义和可证伪性,并使用大型数据库的文本生成检验了这些假设的效果并测得大于预期的波动量。
Feb, 2015
基于单词组成短语是语言中最基本的意义单元的简单观察,我们利用一种基于统计力学的可靠文本分区方法,将短语的 Zipf 定律拓展了九个数量级,使得文本分析得以更加严谨和广泛地进行。
Jun, 2014
通过分析英语、西班牙语和希伯来语记录的一千万个单词的动态特性,以期了解语言和文化的共同进化,我们报告了有用的语言独立模式,作为语言进化理论模型的基准。
Jul, 2011
本文通过在英语、荷兰语和西班牙语三种语言中,以音节长度和音素长度两种新的方式来测量单词的长度,证明了在所有语言中,单词频率与多义性和缩写的趋势存在相关性。
Mar, 2019
Zipf's law on word frequencies and meaning distribution can be explained by a biased random walk in mental exploration, based on a single assumption on the joint probability of a word and a meaning.
Dec, 2017
通过优化编码方法,本文提出了一种新的针对语言词频的 Zipf 定律推导方式,该推导结构类似于曼德布洛特的随机打字模型,但具有多个优点,可以启发对语言其他统计定律的研究,从而进一步解释其产生动机,如简单易懂和快速交流等。
May, 2016