- 学习得到的语音符号是否遵循齐普夫定律?
通过此研究,我们探讨了通过深度学习所学习的语音符号是否遵循自然语言符号所遵循的齐夫定律,以此为基础发展了口语处理的统计分析方法。
- 从单例率模型推导出的 Zipf 定律和 Heaps 定律的修正
根据 hapax rate 的系统模型,该论文介绍了对 Zipf 定律和 Heaps 定律的修正,其中假设了标准的 urn 模型和 hapax rate 是文本大小的简单函数之间的关系,并展示了 logist 模型提供了最佳拟合。
- 大数据与大量数字。解读齐夫定律
通过研究幂律分布的性质以及当群体有限且等级和数量为自然数时出现的类似分布,讨论了 Zipf 定律的解释存在的问题,揭示了一些 Big Data 中的现象是大量数据的性质所引起的。
- 奥尔罕・帕慕克的诺贝尔作品的数学和语言特征描述
通过统计诺贝尔文学奖得主奥尔罕・帕慕克作品的字母和单词数,应用分形几何学方法计算他的文本的分形维度,与 Zipf 定律的应用进行了比较,并用统计分析方法研究其文本结构和土耳其语言的关系。
- 「Genlangs」与齐普夫定律:ChatGPT 生成的语言在统计上看起来像人类吗?
本研究使用 OpenAI 的 GPT-4 生成了 3 种人工语言,探讨了它们是否符合 Zipf 定律。结果表明,genlangs 与自然语言和人工语言具有相似的统计特性,同时我们呼吁进一步开发人类可调用的完整功能的 AI 辅助人工语言。
- 直接和间接证据表明单词长度压缩 —— 重访 Zipf's 缩略语定律
本文探讨了 Zipf 定律与语言缩写的相关性,提供了广泛的证据证明这一定律适用于书面和口语,从而提供了间接证据证明压缩语言的实际存在并提出了简单公式,为度量和比较语言中词语长度的最优性打下了基础。
- 分布语义的实用限制约束
本文研究了语言模型在 Zipf 定律背景下的统计学习限制,表明无论什么标记都会出现 Zipf 的标记分布,标记分布由两个不同频率和语义的标记组成,这些特性干扰了由分布语义驱动的统计学习过程。
- 单词长度的优化。理论基础和实证研究
此论文提出了一个简单的公式来度量语言词长的优化程度,并表明语言在优化方面的平均水平为 62%至 67%,声音上的语言单词持续时间的优化程度比字符中的写作长度更高。
- 一种基于 Zipf 定律的从文档中提取实体的方法
本研究提出了使用 Zipf 定律来解决文本中出现的目录不平衡问题,通过文本生成模型,将文档中常见和少见的实体词汇分类,标记少见实体,并在人工设计规则的帮助下,对工业安全技术文档中的实体进行提取,并通过实验结果证明该方法的有效性。
- 复杂系统分类的方法:文字、文本等
通过物理学类比,定义了基于温度、化学势、熵等参数的文本分类,提出在语言学类比的基础上,研究基因组的方法,同时讨论了熵作为文本分类参数的作用和意义。
- 最优编码和 Zipf 定律的起源
考虑了任意编码方案下最优编码的问题,并表明它预测了 Zipf 定律的缩写,即自然语言中更常见的词语更短。研究发现,最优非奇异编码预测词语的长度应该按其频次排名的对数增长,这与 Zipf 缩写定律一致。最优非奇异编码结合最大熵原则还预测了 Z - 多义性、简洁与词频在语言中的作用
本文通过在英语、荷兰语和西班牙语三种语言中,以音节长度和音素长度两种新的方式来测量单词的长度,证明了在所有语言中,单词频率与多义性和缩写的趋势存在相关性。
- Siamese 网络中的采样策略用于无监督语音表示学习
本文研究了映射网络的采样策略对提高同构词对比学习性能的影响,并发现以 Zipf 定律、发音人分布和同 / 异比例为依据的采样策略可以提高学习 performance,并在无监督地使用发现的同异词对上获得了领先水平的表现。
- Zipf 常数的起源
Zipf's law on word frequencies and meaning distribution can be explained by a biased random walk in mental exploration, - 单词形式 —— 不仅仅是其长度 —— 被优化用于高效沟通
研究发现,与语言中其他单词相比单词的独特性在识别流畅口语中的作用至关重要,且这种独特性可以通过语言的声音或字符序列的统计模型来测量,这也可以解释为什么短的单词反而较少使用;这一发现提供了证据表明听众的处理负担在跨语言的单词形式的微观层面起着 - 压缩和词频 Zipf 定律的起源
通过优化编码方法,本文提出了一种新的针对语言词频的 Zipf 定律推导方式,该推导结构类似于曼德布洛特的随机打字模型,但具有多个优点,可以启发对语言其他统计定律的研究,从而进一步解释其产生动机,如简单易懂和快速交流等。
- 英文文本中 Zipf 定律的大规模分析
通过研究三种版本的 Zipf 定律并将它们拟合到 Project Gutenberg 数据库中所有可用的英文文本中,我们发现其中一种版本的 Zipf 定律在整个频率域内(从 1 到最大值)仅用一个自由参数就能拟合数据库中超过 40%的文本。
- 语言学中的统计规律
文章回顾并批评性讨论了用于描述语言统计规律的通用定律,证明了它们所包含的同时性和独立性等简化统计假设不一定总是成立,阐述了语言定律只有与文本的生成模型结合使用才具有意义和可证伪性,并使用大型数据库的文本生成检验了这些假设的效果并测得大于预期 - 自然交流的优化模型
该研究回顾了信息论模型及其能量函数和心理语言学、语言学习、信息论和协同语言学对该模型的评价,发现其能够解释 Zipf 定律、语音学习接受度偏好、对比原则、词汇学学习倾向和词汇识别次数定律,并且该模型的能量函数可以通过自组织来调整。
- Zipf 定律适用于短语而非单词
基于单词组成短语是语言中最基本的意义单元的简单观察,我们利用一种基于统计力学的可靠文本分区方法,将短语的 Zipf 定律拓展了九个数量级,使得文本分析得以更加严谨和广泛地进行。