shannon entropy is often a quantity of interest to linguists studying the
communicative capacity of human language. However, entropy must typically be
estimated from observed data because researchers do not have access to the
underlying probability distribution that gives rise to these
本论文详细介绍了针对离散分布的 Shannon 熵估计器的一些估计方法,适用于 N 个样本点分布到 M 个箱中,其中 N 和 M -> oo,但 N/M < oo,高采样区域(每个箱子 <<1 个点)具有指数级小的偏差,低采样区域的误差增加,但仍远小于大多数其他估计器。其中一个优势是我们的主要估计器通过解析方法得到,偏差有明确已知的解析公式。
本研究针对离散分布 P 进行 n 个独立同分布样本的香农熵估计,使用逼近理论法进行估计,实现了在估计熵的最小二乘率方面的极致。通过采用自适应估计框架,该方法相对极小值优化估计方法在分布 P 的嵌套子序列上实现了最小二乘率的估计,从而进一步证明了估计在样本 n 的情况下是最优的,并且基本上相当于 MLE 使用 nlnn 个样本进行估计。