大状态空间马尔可夫链的熵率估计

NIPSFeb, 2018

大状态空间马尔可夫链的熵率估计

Entropy Rate Estimation for Markov Chains with Large State Space

Yanjun Han, Jiantao Jiao, Chuan-Zheng Lee, Tsachy Weissman, Yihong Wu...

TL;DR本文研究了从一个马尔可夫链的样本路径进行熵速率估计的问题，证明了在一定的条件下，如马尔可夫链混合得不太慢，则可以实现一致的估计。作者使用提出的估计器在英语数据集上进行了实验并与其他方法进行了比较，结果表明该估计器能够有效地解决估计问题。

Abstract

Estimating the entropy based on data is one of the prototypical problems in distribution property testing and estimation. For estimating the Shannon entropy of a distribution on $S$ elements with independent samples, [Paninski2004] showed that the →

entropy rate markov chain sample complexity estimation language modeling

发现论文，激发创造

自适应熵估计

本研究针对离散分布 P 进行 n 个独立同分布样本的香农熵估计，使用逼近理论法进行估计，实现了在估计熵的最小二乘率方面的极致。通过采用自适应估计框架，该方法相对极小值优化估计方法在分布 P 的嵌套子序列上实现了最小二乘率的估计，从而进一步证明了估计在样本 n 的情况下是最优的，并且基本上相当于 MLE 使用 nlnn 个样本进行估计。

Feb, 2015

离散状态空间上的遍历马尔可夫链核的统计估计

本文研究了从一个单一的长序列状态观测中估计离散状态马尔可夫链核参数的统计复杂性。我们表征了（模对数因子而言）在算子无穷范数意义下估计最小化信赖样本复杂度的有限情况，而在可数无限情况下，我们则分析了基于总变差导出的自然逐项方式规范的问题。我们证明，在这两种情况下，样本复杂度取决于未知链的混合特性，在有限状态情况下，已知有完全经验置信区间的有限样本估计器。

Sep, 2018

离散分布的 Renyi 熵估计

本文研究了估算离散 k 字符分布的 Renyi 熵需要的样本数量，并通过近似多项式的方法，将非整数阶数的复杂度降低至近似于 k 的线性，而整数阶数的复杂度仅需 k 的 1-1/α 次方个样本，并给出了一些难以区分的具有不同 Renyi 熵的分布的显式构造。

Aug, 2014

通过最佳多项式逼近，在大字母表上最小化熵估计率

在独立样本的基础上，通过多项式逼近构建最优估计器并证明了最小均方误差与自然对数的平方存在关系，进而推导出最小样本量与以 K 为底的对数的比例成正比的一般规律.

Jul, 2014

不充分抽样的熵估计

本论文详细介绍了针对离散分布的 Shannon 熵估计器的一些估计方法，适用于 N 个样本点分布到 M 个箱中，其中 N 和 M -> oo，但 N/M < oo，高采样区域（每个箱子 <<1 个点）具有指数级小的偏差，低采样区域的误差增加，但仍远小于大多数其他估计器。其中一个优势是我们的主要估计器通过解析方法得到，偏差有明确已知的解析公式。

Jul, 2003

学习马尔可夫链

研究分析了来自样本的未知 Markov 链的估计问题，特别是预测下一样本的条件分布和转移矩阵的估计问题。研究利用 KL 散度和 f - 散度探讨了这两个问题的 min-max 风险，得出了它们的风险界限和上界。

Oct, 2018

估计遍历马尔可夫链的混合时间

研究了如何从 1 条路径中估计任意遍历有限状态 Markov 链的混合时间，引入了假谱间隙的概念，并构建了全经验置信区间，将精度优化至多项式依赖的最小稳态概率和假谱间隙。

Feb, 2019

离散分布函数的最大似然功能估计

针对离散分布函数的函数估计问题，利用浓度不等式和正线性算子逼近理论分析了 MLE 估计器的最坏情况的平方误差风险及其期望偏差。研究表明，MLE 在估计香农熵和 F_α(P) 产生了次优的样本复杂度，且 Dirichlet 先验平滑技术不能达到最小化极值。

Jun, 2014

私人和通信高效的熵估计算法

本文提供了针对现代统计估计的改进的隐私保护算法和通信效率算法，包括用于估计分布熵的算法和用于通信效率估计基尼熵的算法，并基于现有最佳算法推广了一种用于碰撞熵估计的算法，满足局部差分隐私。

May, 2023

近似计算马尔可夫链中单个状态的稳态概率

本文提出了一种新型迭代 Monte Carlo 方法，用于逼近具有正回归的马尔可夫链状态的稳定概率，其迭代次数少，对于每个状态的估计都具有保证，在终止标准的帮助下，提供了具有保证的近似值，其算法绑定在马尔可夫链上的步数是有限的。

Dec, 2013