重尾巴下的损失最小化和参数估计

Jul, 2013

重尾巴下的损失最小化和参数估计

Loss minimization and parameter estimation with heavy tails

Daniel Hsu, Sivan Sabato

TL;DR该论文研究了一种简单估计技术在重尾分布下提供指数集中性的应用和推广，证明该技术可用于平滑强凸损失函数的近似最小化，特别是在最小二乘线性回归、稀疏线性回归和低秩协方差矩阵估计中具有类似的特征。

Abstract

This work studies applications and generalizations of a simple estimation technique that provides exponential concentration under heavy-tailed distributions, assuming only bounded low-order moments. We show that

exponential concentration low-order moments least squares linear regression sparse linear regression low-rank covariance matrix estimation

发现论文，激发创造

重尾统计算法：回归、协方差估计和更多

研究怎样在不假设样本的基础分布为高斯分布的前提下，只假定有限个矩的情况下，有效地进行线性回归和协方差估计，并关注能用多少样本来实现高精度和指数级成功概率。使用八阶圆当量半定规划提供算法，预备性的证据表明在我们的算法使用的平均中位数框架中无法在多项式时间内改善这些误差率。

Dec, 2019

鲁棒线性最小二乘回归

针对在普通最小二乘法回归中预测的偏差问题，我们提出了一个更好的估算方法 —— 基于截断误差差值的极小 - 极大框架，其期望和差距都为 d/n。

Oct, 2010

高维重尾数据下的健壮回归：渐近性和普适性

我们研究了在协变量和响应函数都存在重尾污染的情况下，强鲁棒回归估计器的高维特性。尤其是，我们针对一族包括无二阶甚至更高阶矩不存在情况下的椭圆形协变量和噪声数据分布，提供了 M - 估计的锐性渐近特性描述。我们表明，尽管具有一致性，在存在重尾噪声的高维情形中，优化调整的 Huber 损失与位置参数 δ 是次优的，强调了需要进一步正则化以达到最佳性能的必要性。这个结果还揭示了 δ 作为样本复杂性和污染的函数的一个有趣的转变的存在。此外，我们导出了岭回归的超额风险的衰减速率。我们表明，对于有限二阶矩的噪声分布，岭回归虽然是最佳的且适用的，但当协变量的二阶矩不存在时，它的衰减速率可能会更快。最后，我们展示了我们的公式可以方便地推广到更丰富的模型和数据分布，如对混合模型的任意凸正则化训练的广义线性估计。

Sep, 2023

重尾数据的差分隐私随机凸优化的改进速率

本文研究带有重尾数据的随机凸优化问题，并在差分隐私（DP）约束条件下进行研究。该文提出了一种新的算法用于估计重尾数据的均值，并针对凸损失函数提供了改进的上界。同时，证明了私密随机凸优化的几乎匹配下界，这表明了纯 DP 和集中 DP 之间的新分离。

Jun, 2021

学习无需集中注意力

通过小球假设，本文在不假定类成员和目标是有界函数或具有快速衰减尾部的情况下，对凸类和使用平方损失的经验风险最小化的性能进行了尖锐边界限制。得到的估计与问题的噪声水平正确比例，并且当应用于经典的有限场景时总是会改善已知的边界。

Jan, 2014

无需方差的最优均值估计

研究了在数据生成分布的方差不存在的情况下对重尾均值估计问题的解决方案，提出了一种具备计算效率的估计器，并通过信息理论建立了最优可达置信区间的信息理论下界。

Nov, 2020

简化的简单降维的大尾部私密随机凸优化近乎最优解

我们研究了具有重尾梯度的差分隐私随机凸优化（DP-SCO）问题，在这里我们假设样本函数的 Lipschitz 常数具有 k 次矩界而不是统一界。我们提出了一种新的基于约束的方法，使我们能够在重尾设置中获得首个最优速率（达到对数因子），在（ε，δ）- 近似差分隐私下，实现误差 G2⋅1/√n+Gk⋅(√d/nε)^(1-1/k)，几乎匹配于 [Lowy and Razaviyayn 2023] 的下界。在额外假设下，我们进一步给出了一套重尾设置的私有算法，包括在已知 Lipschitz 常数假设下的最优算法，平滑函数的近线性时间算法以及平滑广义线性模型的最优线性时间算法。

Jun, 2024

重尾损失函数的经验风险最小化

探讨了基于 Catoni 均值估计的经验风险最小化问题，并发展了基于 Catoni 的均值估计器的链式论据性能界限，以应对损失函数不一定有界，可能具有重尾分布的情况。

Jun, 2014

线性最小二乘的确切极小极大风险及样本协方差矩阵的下尾

通过研究新颖的偏尾分析技巧，我们在随机设计的线性预测和相关问题上考虑最小化期望风险。我们发现，当每个样本所代表的统计杠杆得分在高斯设计时是最小的。我们通过控制经验过程的 PAC-Bayes 技术扩展了 Oliveira 的分析。

Dec, 2019

更好、更简单的差分隐私统计估计下界

通过指纹技术和贝叶斯方法，我们改进了高维度隐私估计的下界。我们提出了计算高斯协方差和重尾分布均值的样本数量下界，并与先前工作的结论进行了比较。

Oct, 2023