文章回顾并批评性讨论了用于描述语言统计规律的通用定律,证明了它们所包含的同时性和独立性等简化统计假设不一定总是成立,阐述了语言定律只有与文本的生成模型结合使用才具有意义和可证伪性,并使用大型数据库的文本生成检验了这些假设的效果并测得大于预期的波动量。
Feb, 2015
本文通过随机动力学模型研究了文字 Zipf 定律的起源,并且阐述了该定律在人类语言中的语言学关联性。我们提出的模型结合了与语言结构相关的特征和长时间连续性文本生成过程中内在的记忆效应。研究结果表明,我们的模型的乘性动力学产生的等级 - 频率分布量化结果与实验数据定量一致。
Dec, 2002
通过优化编码方法,本文提出了一种新的针对语言词频的 Zipf 定律推导方式,该推导结构类似于曼德布洛特的随机打字模型,但具有多个优点,可以启发对语言其他统计定律的研究,从而进一步解释其产生动机,如简单易懂和快速交流等。
May, 2016
本文研究了语言模型在 Zipf 定律背景下的统计学习限制,表明无论什么标记都会出现 Zipf 的标记分布,标记分布由两个不同频率和语义的标记组成,这些特性干扰了由分布语义驱动的统计学习过程。
Nov, 2022
Zipf's law on word frequencies and meaning distribution can be explained by a biased random walk in mental exploration, based on a single assumption on the joint probability of a word and a meaning.
Dec, 2017
通过研究三种版本的 Zipf 定律并将它们拟合到 Project Gutenberg 数据库中所有可用的英文文本中,我们发现其中一种版本的 Zipf 定律在整个频率域内(从 1 到最大值)仅用一个自由参数就能拟合数据库中超过 40%的文本。
Sep, 2015
基于单词组成短语是语言中最基本的意义单元的简单观察,我们利用一种基于统计力学的可靠文本分区方法,将短语的 Zipf 定律拓展了九个数量级,使得文本分析得以更加严谨和广泛地进行。
Jun, 2014
本文探讨了 Zipf 定律与语言缩写的相关性,提供了广泛的证据证明这一定律适用于书面和口语,从而提供了间接证据证明压缩语言的实际存在并提出了简单公式,为度量和比较语言中词语长度的最优性打下了基础。
Mar, 2023
本研究发现,单词之间发生的距离时间间隔符合 Weibull 分布,该结果对 Zipf's law 的假设提出了挑战,也对集体人类动态的显性表现具有重要影响。
Jan, 2009
本文通过在英语、荷兰语和西班牙语三种语言中,以音节长度和音素长度两种新的方式来测量单词的长度,证明了在所有语言中,单词频率与多义性和缩写的趋势存在相关性。
Mar, 2019