私人和通信高效的熵估计算法
该研究提出了一种基于 Kashin 表示和随机抽样的方案以及利用 Walsh-Hadamard 矩阵的递归结构来实现隐私和通信效率的联合优化编码和解码机制,对平均值估计和频率估计等问题进行了研究。
Jul, 2020
本文为研究局部隐私约束下的估计方案制定下限,推导出了私有估计和受通信限制的估计问题之间的等价性,适用于任意交互的隐私机制,并且得出了所有不同隐私保护级别的尖锐下限。作者作为对研究结果的一个重要推论,证明了有界或高斯随机向量的均值估计的最小最大均方误差按比例缩放的结论为 $d/n * d/min (ε,ε^2)$ 。
Feb, 2019
本研究针对离散分布 P 进行 n 个独立同分布样本的香农熵估计,使用逼近理论法进行估计,实现了在估计熵的最小二乘率方面的极致。通过采用自适应估计框架,该方法相对极小值优化估计方法在分布 P 的嵌套子序列上实现了最小二乘率的估计,从而进一步证明了估计在样本 n 的情况下是最优的,并且基本上相当于 MLE 使用 nlnn 个样本进行估计。
Feb, 2015
该论文提出了一种名为 Hadamard Response 的本地隐私保护方案,可在高隐私水平下使用,并在所有 ε 下具有最优的样本复杂度,通信不超过每个用户的 log k + 2 位,并且具有几乎线性的运行时间,该方案的编码和解码基于 Hadamard 矩阵,其统计性能依赖于编码理论方面的因素。
Feb, 2018
本文介绍了在数据是从离散概率分布抽取的有限样本时,对熵和其他函数的估计器,尤其是当概率分布为联合分布时,我们提出了对该概率分布的互信息、协方差和卡方函数的有限样本估计器。
Mar, 1994
在分布式网络中进行参数估计,考虑每个传感器从基础分布中观察独立样本并具有 $k$ 位通信其样本到集中式处理器,该处理器计算所需参数的估计值。我们为一类广泛的损失和分布模型开发极小化风险的下界,并表明在温和的正则条件下,当 $k$ 较小时,通信约束将使有效样本量减少 $d$ 倍,其中 $d$ 是被估计参数的维数。此惩罚随着 $k$ 的增加而以最多指数级别降低,这对某些模型如高维分布估计成立。对于其他模型,我们表明样本量的减少是与 $k$ 线性递减的,例如,当一些次高斯结构可用时。我们将结果应用于具有乘积 Bernoulli 模型、多项式模型、高斯位置模型和逻辑回归的分布式设置中,从而恢复或加强现有结果。
Feb, 2018
本文研究在保障隐私和通讯限制下分布估计和重头分估计的问题,提出了使用局部差分隐私的样本最优方案,并表明 Hadamard 反应方案可以用于重头分估计。
May, 2019
本文研究了 Shannon 熵在语言学任务中的应用,重点关注从可观察的语言数据中估算熵的效果,并通过两个信息论语言学研究的复制实验发现,由于过度依赖不良熵估算器,报告的效应大小被高估了。最后我们提出了针对不同类型分布和数据可用性的熵估算建议。
Apr, 2022
该论文提出了新的同步和异步随机流言算法,可以在网络中传播数据并同时维护感兴趣的 $U$- 统计量的本地估计,同时建立了收敛速率界限,并在数值实验中提供实际证据表明这些算法优于之前引入的方法。
Nov, 2015
本论文详细介绍了针对离散分布的 Shannon 熵估计器的一些估计方法,适用于 N 个样本点分布到 M 个箱中,其中 N 和 M -> oo,但 N/M < oo,高采样区域(每个箱子 <<1 个点)具有指数级小的偏差,低采样区域的误差增加,但仍远小于大多数其他估计器。其中一个优势是我们的主要估计器通过解析方法得到,偏差有明确已知的解析公式。
Jul, 2003