当没有预警的异常值压倒时的连贯回归
通过使用硬阈值化的新颖变体,本文提出了一种快速的鲁棒估计器,可以有效地解决使用响应变量损坏的鲁棒线性回归问题,并通过应用于不同的扰动模型,展示了其估计能力的稳健性。
Mar, 2019
研究了在高斯设计和加性噪声的线性模型中,估计一个 p-维 s-稀疏向量的问题,证明当标签受到至多o个敌对异常数据的污染时,基于n个样本的L1惩罚Huber's M-估计量达到最优的收敛速率(s / n)^ {1/2} +(o / n),更一般的设计矩阵结果强调了转移原则和无相干性质的重要性,并证明适当的常数加上这些属性可以实现最优的强鲁棒估计率,最高可达对数因子,具有敌对扰动。
Apr, 2019
本文研究了在线情况下健壮线性回归问题,提出了一种基于随机梯度下降方法和L1损失函数的高效算法,能够在存在污染数据情况下有效检测和去除异常值,算法复杂度与污染比例相关。
Jul, 2020
本文研究高维度的鲁棒线性回归,包括离群值和使用标准损失函数的经验风险最小化(ERMs)方法。结果显示,在相似数据集上,经过最优正则化的ERM在大样本复杂性极限下是渐近一致的,但在评估误差方面,由于规范标定的失配,估计器的一致性要求完美计算最优规范的预估值或存在未受离群值污染的交叉验证集。不同的损失函数在最优性能的使用情况下提供了有关使用情况的见解。
May, 2023
该研究论文介绍了第一个能够处理加性忽略噪声下广义线性模型(GLM)回归问题的算法,该算法能够处理超过一半样本受到任意损坏的情况,并提供了识别性的必要和充分条件。
Sep, 2023
我们研究了在协变量和响应函数都存在重尾污染的情况下, 强鲁棒回归估计器的高维特性。尤其是, 我们针对一族包括无二阶甚至更高阶矩不存在情况下的椭圆形协变量和噪声数据分布, 提供了M-估计的锐性渐近特性描述。我们表明, 尽管具有一致性, 在存在重尾噪声的高维情形中, 优化调整的Huber损失与位置参数δ是次优的, 强调了需要进一步正则化以达到最佳性能的必要性。这个结果还揭示了δ作为样本复杂性和污染的函数的一个有趣的转变的存在。此外, 我们导出了岭回归的超额风险的衰减速率。我们表明, 对于有限二阶矩的噪声分布, 岭回归虽然是最佳的且适用的, 但当协变量的二阶矩不存在时, 它的衰减速率可能会更快。最后, 我们展示了我们的公式可以方便地推广到更丰富的模型和数据分布, 如对混合模型的任意凸正则化训练的广义线性估计。
Sep, 2023
我们研究了在存在Huber污染时,高斯均值估计和具有高斯协变量的线性回归的基本问题。我们的主要贡献是设计出了第一个样本近优且几乎具有线性时间算法,其具有最佳的误差保证,可以解决这两个问题。
Dec, 2023
高斯稀疏估计在Huber污染模型中研究,针对均值估计、主成分分析和线性回归三个任务,提出了第一个样本和计算高效的鲁棒估计器,保证了较小的误差,并且在常数因子内达到最优。之前针对这些任务的高效算法都产生了数量上次优的误差。具体而言,对于高斯的鲁棒k稀疏均值估计在具有污染率为ε>0的R^d上,我们的算法具有样本复杂度为 (k^2/ε^2)·polylog(d/ε),在多项式时间内运行,并且在L2误差为O(ε)的范围内逼近目标均值。之前的高效算法固有地产生了误差Ω(ε√log(1/ε))。在技术层面上,我们开发了一种在稀疏情况下的新型多维过滤方法,可能具有其他应用。
Mar, 2024
本文研究了在同时存在不可知和自适应对手的情况下,稀疏线性回归的有效估计器设计。研究提出了几种稳健算法,在加入高斯噪声的特殊情况下仍超越现有技术,且能在多项式时间内高概率恢复信号,显示出在稀疏设置中具有近乎最优的样本复杂性。
Oct, 2024