ACLApr, 2022

估计语言分布的熵

TL;DR本文研究了 Shannon 熵在语言学任务中的应用,重点关注从可观察的语言数据中估算熵的效果,并通过两个信息论语言学研究的复制实验发现,由于过度依赖不良熵估算器,报告的效应大小被高估了。最后我们提出了针对不同类型分布和数据可用性的熵估算建议。