Jun, 2023

高效符号通信码的演化

TL;DR本文探讨了人类自然语言结构如何成为相互之间交流编码演化的产物,以最大化文化不可知和跨语言度量,如反熵,压缩因子和交叉分割 F1 得分,并在超参数空间中执行元学习,通过最大化上述度量,实现自然语言学习。文中介绍了针对俄语,英语和汉语的跨语言单词级分割分词研究,以及对英语的子词分割或形态分析研究的初步结果。研究发现,从分词到分词中可以发现,这些度量驱动着语言结构,反熵更相关于英语和俄语,而压缩因子更适用于中国。对于英语词汇表的子词分割或形态分析的研究揭示了压缩和压缩因子之间存在直接联系,而惊讶的是,与反熵的相同联系却变成了相反。