关于同音词和 Rényi 熵

EMNLPSep, 2021

On Homophony and Rényi Entropy

Tiago Pimentel, Clara Meister, Simone Teufel, Ryan Cotterell

TL;DR本文对自然语言中同音现象的普遍性和其对认知加工时间的负面影响进行了讨论，并通过新的信息熵度量方法，重新审视了语言优化理论及其对于同音现象的解释，最终发现无法得出一致的结论。

Abstract

homophony's widespread presence in natural languages is a controversial topic. Recent theories of language optimality have tried to justify its prevalence, despite its negative effects on →

homophony language optimality cognitive processing phonotactics renyi entropy

发现论文，激发创造

论音乐序列的典型性

此研究表明，人们常用的英语词汇和单声部音乐序列中的事件信息含量接近于条件熵，并阐述了 “典型抽样” 如何影响个别事件和序列的信息分布。

Nov, 2022

元音和谐的信息论特征：关于词汇列表的跨语言研究

我们通过数据驱动的计算建模对元音和谐进行了跨语言研究，使用基于信息熵的和谐度量来衡量自然语言词汇中元音的可预测性，训练使用具有较少或无屈折的跨语言可比较的原型形式，结果表明，神经语言模型能够捕捉到呈现这一现象的一组语言中的元音和谐模式。此外，我们的工作还表明词列表是一种有价值的资源，可以用于语言类型学研究，并为未来关于低资源、少研究的语言提供了新的可能性。

Aug, 2023

语言生成中概率 - 质量悖论

论文分析了自然语言生成过程，并通过信息理论解释了高概率和高质量并不总是一致的现象，得出语言生成应包含接近自然字符串分布熵的负对数概率数目，初步实证结果表明高质量的文本具有信息量与自然字符串分布熵更接近的特点。

Mar, 2022

紧凑语言中的熵最小化

研究神经代理在通讯任务中共同训练时出现的语言，并聚焦于两个代理一次交流的基本设置，发现这类语言呈现出信息论复杂性且受到熵极小化压力的影响。

May, 2019

探究文本熵速率不变性

通过神经语言模型重新评估 Genzel 和 Charniak 在信息熵速率恒定性原则方面的主张，未能发现明确支持熵速率恒定性的证据，对一致信息密度假设和有效交流的语言学理论的影响进行了实验研究。

May, 2023

英语 WordNet 的同音词信息

本文重新访问了填补 WordNet 中同音异义词及多义词间差异的问题，并且利用语言模型对此进行了合成标注。

Dec, 2022

高效符号通信码的演化

本文探讨了人类自然语言结构如何成为相互之间交流编码演化的产物，以最大化文化不可知和跨语言度量，如反熵，压缩因子和交叉分割 F1 得分，并在超参数空间中执行元学习，通过最大化上述度量，实现自然语言学习。文中介绍了针对俄语，英语和汉语的跨语言单词级分割分词研究，以及对英语的子词分割或形态分析研究的初步结果。研究发现，从分词到分词中可以发现，这些度量驱动着语言结构，反熵更相关于英语和俄语，而压缩因子更适用于中国。对于英语词汇表的子词分割或形态分析的研究揭示了压缩和压缩因子之间存在直接联系，而惊讶的是，与反熵的相同联系却变成了相反。

Jun, 2023

从顺序信息处理的瓶颈中获取语言结构

人类语言是一种独特的自然界沟通方式，其系统性在于信号可以分解为词汇并通过一种规则方式组合成句子，且通过最小化过剩熵的方式实现自然语言一致性，进而达到高效的沟通和信息处理。

May, 2024

关于句法结构的出现：量化和建模规律双重性

本文介绍了一个用来量化语言中组合性和组合能力水平的框架，通过模拟人为语言游戏来证明 Blending Game 理论能够解释语言中的无意义形式的组合和构成过程。

Feb, 2016

音位结构复杂性及其权衡

本研究介绍了一种计算语音统计复杂度的方法，在给定来自不同语言的序列化单词和样本统计模型的基础上，通过负对数概率的近似值来比较语言的熵，发现 bits per phoneme 与平均单词长度之间呈现非常强的负相关关系

May, 2020