自然交流的优化模型
通过优化编码方法,本文提出了一种新的针对语言词频的 Zipf 定律推导方式,该推导结构类似于曼德布洛特的随机打字模型,但具有多个优点,可以启发对语言其他统计定律的研究,从而进一步解释其产生动机,如简单易懂和快速交流等。
May, 2016
考虑了任意编码方案下最优编码的问题,并表明它预测了 Zipf 定律的缩写,即自然语言中更常见的词语更短。研究发现,最优非奇异编码预测词语的长度应该按其频次排名的对数增长,这与 Zipf 缩写定律一致。最优非奇异编码结合最大熵原则还预测了 Zipf 的等级 - 频率分布。最后,讨论了最优编码对 Zipf 定律及其他语言规律的构建的影响。
Jun, 2019
本文通过随机动力学模型研究了文字 Zipf 定律的起源,并且阐述了该定律在人类语言中的语言学关联性。我们提出的模型结合了与语言结构相关的特征和长时间连续性文本生成过程中内在的记忆效应。研究结果表明,我们的模型的乘性动力学产生的等级 - 频率分布量化结果与实验数据定量一致。
Dec, 2002
研究了当两个神经网络,即 “说话人” 和 “听众” 被训练玩信号游戏时,是否会产生类似 Zipf 定律的现象,然而我们发现,这些神经网络没有按照 Zipf 定律的方式编码,即更常见的输入被分配到更长的消息中,这种反效率的编码方式对于监听者更容易进行区分,并且与人类沟通不同的是,说话人不会对简洁性施加压力,同时,当成本函数包括对更长消息的惩罚时,结果消息分布开始遵循 Zipf 定律。因此,该研究强调了在高度控制的设置中研究新兴沟通的基本特征的重要性,以确保后者不会偏离人类语言。
May, 2019
该研究论文阐述了对于正则文法的符号间互信息随符号间距离指数衰减的特性,然而对于上下文无关文法则符合幂律分布;并且将该现象与统计力学、湍流以及宇宙膨胀等领域的幂律相关性做了联系,以及阐述了这种现象在机器学习中的潜在应用。除此之外,该研究论文还提出了一种合理的互信息量的量化方式,并探讨了该现象在更复杂的贝叶斯网络中的推广。
Jun, 2016
Zipf's law on word frequencies and meaning distribution can be explained by a biased random walk in mental exploration, based on a single assumption on the joint probability of a word and a meaning.
Dec, 2017
该研究通过对人类语言和其他动物行为的分析,证明了 Zipf 定律在行为现象的多样性中具有普适性。该定律反映了动物行为编码效率的普遍原则,与信息论的最小化预期码长原则密切相关。
Mar, 2013
通过信息理论和深度学习,本研究考察了生物符号学中的选择过程,特别是儿童词汇学习偏见的弱化和 Zipf 词汇分布定律的影响因素。研究结果也为未来在生物符号学其它方面的实验研究提供了参考。
May, 2021
文章回顾并批评性讨论了用于描述语言统计规律的通用定律,证明了它们所包含的同时性和独立性等简化统计假设不一定总是成立,阐述了语言定律只有与文本的生成模型结合使用才具有意义和可证伪性,并使用大型数据库的文本生成检验了这些假设的效果并测得大于预期的波动量。
Feb, 2015