单词长度的优化。理论基础和实证研究
本文探讨了 Zipf 定律与语言缩写的相关性,提供了广泛的证据证明这一定律适用于书面和口语,从而提供了间接证据证明压缩语言的实际存在并提出了简单公式,为度量和比较语言中词语长度的最优性打下了基础。
Mar, 2023
研究发现,与语言中其他单词相比单词的独特性在识别流畅口语中的作用至关重要,且这种独特性可以通过语言的声音或字符序列的统计模型来测量,这也可以解释为什么短的单词反而较少使用;这一发现提供了证据表明听众的处理负担在跨语言的单词形式的微观层面起着关键性作用。
Mar, 2017
考虑了任意编码方案下最优编码的问题,并表明它预测了 Zipf 定律的缩写,即自然语言中更常见的词语更短。研究发现,最优非奇异编码预测词语的长度应该按其频次排名的对数增长,这与 Zipf 缩写定律一致。最优非奇异编码结合最大熵原则还预测了 Zipf 的等级 - 频率分布。最后,讨论了最优编码对 Zipf 定律及其他语言规律的构建的影响。
Jun, 2019
本文通过在英语、荷兰语和西班牙语三种语言中,以音节长度和音素长度两种新的方式来测量单词的长度,证明了在所有语言中,单词频率与多义性和缩写的趋势存在相关性。
Mar, 2019
通过优化编码方法,本文提出了一种新的针对语言词频的 Zipf 定律推导方式,该推导结构类似于曼德布洛特的随机打字模型,但具有多个优点,可以启发对语言其他统计定律的研究,从而进一步解释其产生动机,如简单易懂和快速交流等。
May, 2016
该研究通过对人类语言和其他动物行为的分析,证明了 Zipf 定律在行为现象的多样性中具有普适性。该定律反映了动物行为编码效率的普遍原则,与信息论的最小化预期码长原则密切相关。
Mar, 2013
基于单词组成短语是语言中最基本的意义单元的简单观察,我们利用一种基于统计力学的可靠文本分区方法,将短语的 Zipf 定律拓展了九个数量级,使得文本分析得以更加严谨和广泛地进行。
Jun, 2014
研究了当两个神经网络,即 “说话人” 和 “听众” 被训练玩信号游戏时,是否会产生类似 Zipf 定律的现象,然而我们发现,这些神经网络没有按照 Zipf 定律的方式编码,即更常见的输入被分配到更长的消息中,这种反效率的编码方式对于监听者更容易进行区分,并且与人类沟通不同的是,说话人不会对简洁性施加压力,同时,当成本函数包括对更长消息的惩罚时,结果消息分布开始遵循 Zipf 定律。因此,该研究强调了在高度控制的设置中研究新兴沟通的基本特征的重要性,以确保后者不会偏离人类语言。
May, 2019
通过空间网络将句子中单词的语法依赖关系表示为优化问题,引入新的评分方法来量化减少单词距离的认知压力,研究 93 种语言的句子,发现这种方法能准确评估大约一半的语言的优化水平,并对各个领域的语言研究提供了启示,特别是对网络科学有重要意义。
Jul, 2020