关于同音词和 Rényi 熵
我们通过数据驱动的计算建模对元音和谐进行了跨语言研究,使用基于信息熵的和谐度量来衡量自然语言词汇中元音的可预测性,训练使用具有较少或无屈折的跨语言可比较的原型形式,结果表明,神经语言模型能够捕捉到呈现这一现象的一组语言中的元音和谐模式。此外,我们的工作还表明词列表是一种有价值的资源,可以用于语言类型学研究,并为未来关于低资源、少研究的语言提供了新的可能性。
Aug, 2023
论文分析了自然语言生成过程,并通过信息理论解释了高概率和高质量并不总是一致的现象,得出语言生成应包含接近自然字符串分布熵的负对数概率数目,初步实证结果表明高质量的文本具有信息量与自然字符串分布熵更接近的特点。
Mar, 2022
通过神经语言模型重新评估 Genzel 和 Charniak 在信息熵速率恒定性原则方面的主张,未能发现明确支持熵速率恒定性的证据,对一致信息密度假设和有效交流的语言学理论的影响进行了实验研究。
May, 2023
本文探讨了人类自然语言结构如何成为相互之间交流编码演化的产物,以最大化文化不可知和跨语言度量,如反熵,压缩因子和交叉分割 F1 得分,并在超参数空间中执行元学习,通过最大化上述度量,实现自然语言学习。文中介绍了针对俄语,英语和汉语的跨语言单词级分割分词研究,以及对英语的子词分割或形态分析研究的初步结果。研究发现,从分词到分词中可以发现,这些度量驱动着语言结构,反熵更相关于英语和俄语,而压缩因子更适用于中国。对于英语词汇表的子词分割或形态分析的研究揭示了压缩和压缩因子之间存在直接联系,而惊讶的是,与反熵的相同联系却变成了相反。
Jun, 2023
人类语言是一种独特的自然界沟通方式,其系统性在于信号可以分解为词汇并通过一种规则方式组合成句子,且通过最小化过剩熵的方式实现自然语言一致性,进而达到高效的沟通和信息处理。
May, 2024
本文介绍了一个用来量化语言中组合性和组合能力水平的框架,通过模拟人为语言游戏来证明 Blending Game 理论能够解释语言中的无意义形式的组合和构成过程。
Feb, 2016
本研究介绍了一种计算语音统计复杂度的方法,在给定来自不同语言的序列化单词和样本统计模型的基础上,通过负对数概率的近似值来比较语言的熵,发现 bits per phoneme 与平均单词长度之间呈现非常强的负相关关系
May, 2020