当没有预警的异常值压倒时的连贯回归
研究了高维稳健线性回归问题,在受到对抗性破坏的情况下提出了估计方法,包括样本复杂度,恢复保证,运行时间等关键指标,并利用近期算法发展的加速算法和高斯舍入技术等方法来优化估计器的运行时间和统计样本复杂性。
Jul, 2020
本文首次给出了一个多项式时间算法,用于在示例和标签中对抗性堕落下执行线性或多项式回归,并基于 SoS 方法提出了一种自然的凸松弛方法来解决非凸优化问题。
Mar, 2018
我们研究了在存在 Huber 污染时,高斯均值估计和具有高斯协变量的线性回归的基本问题。我们的主要贡献是设计出了第一个样本近优且几乎具有线性时间算法,其具有最佳的误差保证,可以解决这两个问题。
Dec, 2023
研究了在高斯设计和加性噪声的线性模型中,估计一个 p - 维 s - 稀疏向量的问题,证明当标签受到至多 o 个敌对异常数据的污染时,基于 n 个样本的 L1 惩罚 Huber's M - 估计量达到最优的收敛速率 (s /n)^ {1/2} +(o /n),更一般的设计矩阵结果强调了转移原则和无相干性质的重要性,并证明适当的常数加上这些属性可以实现最优的强鲁棒估计率,最高可达对数因子,具有敌对扰动。
Apr, 2019
高斯稀疏估计在 Huber 污染模型中研究,针对均值估计、主成分分析和线性回归三个任务,提出了第一个样本和计算高效的鲁棒估计器,保证了较小的误差,并且在常数因子内达到最优。之前针对这些任务的高效算法都产生了数量上次优的误差。具体而言,对于高斯的鲁棒 k 稀疏均值估计在具有污染率为 ε>0 的 R^d 上,我们的算法具有样本复杂度为 (k^2/ε^2)・polylog (d/ε),在多项式时间内运行,并且在 L2 误差为 O (ε) 的范围内逼近目标均值。之前的高效算法固有地产生了误差 Ω(ε√log (1/ε))。在技术层面上,我们开发了一种在稀疏情况下的新型多维过滤方法,可能具有其他应用。
Mar, 2024
通过使用硬阈值化的新颖变体,本文提出了一种快速的鲁棒估计器,可以有效地解决使用响应变量损坏的鲁棒线性回归问题,并通过应用于不同的扰动模型,展示了其估计能力的稳健性。
Mar, 2019
本文研究高维度的鲁棒线性回归,包括离群值和使用标准损失函数的经验风险最小化(ERMs)方法。结果显示,在相似数据集上,经过最优正则化的 ERM 在大样本复杂性极限下是渐近一致的,但在评估误差方面,由于规范标定的失配,估计器的一致性要求完美计算最优规范的预估值或存在未受离群值污染的交叉验证集。不同的损失函数在最优性能的使用情况下提供了有关使用情况的见解。
May, 2023
本篇论文提出了一种针对大数据中的尾部离群值和重尾分布等问题的自适应 Huber 回归方法,其中关键观察是,用于鲁棒性参数自适应的最优偏差和鲁棒性之间的权衡应该适应于样本大小,维度和矩。
Jun, 2017
研究怎样在不假设样本的基础分布为高斯分布的前提下,只假定有限个矩的情况下,有效地进行线性回归和协方差估计,并关注能用多少样本来实现高精度和指数级成功概率。使用八阶圆当量半定规划提供算法,预备性的证据表明在我们的算法使用的平均中位数框架中无法在多项式时间内改善这些误差率。
Dec, 2019