一种健壮均值估计的统一方法
文章提出了一种新的,计算高效的风险极小化估计器类别,展示了它们在一般统计模型中的鲁棒性,特别地,在经典的 Huber epsilon 污染模型和重尾情况下。提出的核心是一种新型的鲁棒梯度下降算法,还给出了它在一般凸风险极小化问题中提供准确估计的条件,并以线性回归、逻辑回归和指数族中的规范参数估计为例。最后,在合成和实际数据集上研究了这种方法的实证表现,发现其比多种基线方法更具说服力。
Feb, 2018
我们研究了在存在 Huber 污染时,高斯均值估计和具有高斯协变量的线性回归的基本问题。我们的主要贡献是设计出了第一个样本近优且几乎具有线性时间算法,其具有最佳的误差保证,可以解决这两个问题。
Dec, 2023
我们研究了在协变量和响应函数都存在重尾污染的情况下,强鲁棒回归估计器的高维特性。尤其是,我们针对一族包括无二阶甚至更高阶矩不存在情况下的椭圆形协变量和噪声数据分布,提供了 M - 估计的锐性渐近特性描述。我们表明,尽管具有一致性,在存在重尾噪声的高维情形中,优化调整的 Huber 损失与位置参数 δ 是次优的,强调了需要进一步正则化以达到最佳性能的必要性。这个结果还揭示了 δ 作为样本复杂性和污染的函数的一个有趣的转变的存在。此外,我们导出了岭回归的超额风险的衰减速率。我们表明,对于有限二阶矩的噪声分布,岭回归虽然是最佳的且适用的,但当协变量的二阶矩不存在时,它的衰减速率可能会更快。最后,我们展示了我们的公式可以方便地推广到更丰富的模型和数据分布,如对混合模型的任意凸正则化训练的广义线性估计。
Sep, 2023
本篇论文提出了一种针对大数据中的尾部离群值和重尾分布等问题的自适应 Huber 回归方法,其中关键观察是,用于鲁棒性参数自适应的最优偏差和鲁棒性之间的权衡应该适应于样本大小,维度和矩。
Jun, 2017
高斯稀疏估计在 Huber 污染模型中研究,针对均值估计、主成分分析和线性回归三个任务,提出了第一个样本和计算高效的鲁棒估计器,保证了较小的误差,并且在常数因子内达到最优。之前针对这些任务的高效算法都产生了数量上次优的误差。具体而言,对于高斯的鲁棒 k 稀疏均值估计在具有污染率为 ε>0 的 R^d 上,我们的算法具有样本复杂度为 (k^2/ε^2)・polylog (d/ε),在多项式时间内运行,并且在 L2 误差为 O (ε) 的范围内逼近目标均值。之前的高效算法固有地产生了误差 Ω(ε√log (1/ε))。在技术层面上,我们开发了一种在稀疏情况下的新型多维过滤方法,可能具有其他应用。
Mar, 2024
本文提供一个元问题和一个对偶定理,通过这个元问题和对偶定理,我们从新的统一的视角研究了高维健壮统计和重尾分布均值估计问题,并展示了一个既简单又高效的算法,该算法用于处理两个不同问题通过两种算法最终合并实现了 “大同小异”
Jul, 2020
在分布式系统中,用户整体样本的隐私保护是很重要的。我们提出了基于 Huber loss 最小化的方法来进行用户级差分隐私下的均值估计,通过自适应调整 Huber loss 的连接点来处理不平衡的用户,避免了剪辑操作,大大减少了误差。通过理论分析和数值实验证实了我们的方法。
May, 2024
本文研究了概率测度 $P$ 均值的健壮估计量,提出了一种稍微复杂的构造方法以处理健壮 $M$- 估计问题,并将该方法应用于最小二乘密度估计、具有 Kullback 损失的密度估计以及非高斯、不受限制的随机设计和异方差回归问题,同时作者表明该策略也可以用于数据只被假设为混合的情况。
Dec, 2011
本文研究了一个基于迭代重新加权的估计方法,该方法针对多元高斯分布的均值具有鲁棒性,且具有多个优秀性质,包括计算上的可行性、对平移、伸缩和正交变换的不变性、高断点以及渐近有效性。此外,本文还为提出的估计器建立了无维度的非渐近风险界限,并将结果推广到了子高斯分布和污染率未知、协方差矩阵未知等情形。
Feb, 2020
本文引入了矩阵深度的概念,提出了一种鲁棒的协方差矩阵估计方法,该方法具有稳健性和最小化最坏情况下的风险率的特点,能够适应包括有带状结构和稀疏结构在内的多种结构的协方差 / 散布矩阵估计问题。
Jun, 2015