通过块坐标几何中位下降实现高维度的稳健训练

Jun, 2021

通过块坐标几何中位下降实现高维度的稳健训练

Robust Training in High Dimensions via Block Coordinate Geometric Median Descent

Anish Acharya, Abolfazl Hashemi, Prateek Jain, Sujay Sanghavi, Inderjit S. Dhillon...

TL;DR本文展示了在高维优化问题中，通过将几何中位数只应用于精心选择的坐标块并使用记忆机制，可以保留 0.5 的最优破坏点，以及与 Gm 的 SGD 具有可比的非渐近收敛速率。

Abstract

geometric median (\textsc{Gm}) is a classical method in statistics for achieving a robust estimation of the uncorrupted data; under gross corruption, it achieves the optimal breakdown point of 0.5. However, its c

geometric median robust estimation stochastic gradient descent high-dimensional optimization non-convex problems

发现论文，激发创造

健壮数据剪枝的几何中位数匹配

提出一种基于几何中位数匹配的全新数据修剪方法，通过选择近似几何中位数的子集来改善神经网络在存在噪声和腐败的情况下的剪枝效果，并在大量实验证明该方法在数据修剪方面表现优于现有方法。

Jun, 2024

利用平滑乘法噪音的鲁棒下降

该研究提出了一种新型的鲁棒梯度下降算法，采用直接对观测值施加平滑的乘性噪声，构建软截断梯度坐标之和的方式，使其具有与传统方法相当的理论保证和更高的数据分布类别广泛性能。

Oct, 2018

带剪裁的随机梯度下降法秘密估计中位数梯度

基于中位数估计的坚实梯度方法在随机梯度下降算法中能够应对重尾、状态相关性噪声，在分布式学习、隐私约束等领域有广泛应用。本研究在采样、几何中位数计算及迭代中都提出了基于中位数梯度估计的方法，并发现多种已知算法可看作此方法的特例。

Feb, 2024

大规模高斯过程回归的贪婪块坐标下降

通过提出变量分解算法 - greedy block coordinate descent（GBCD）-，我们将密集高斯过程回归变得实用，解决了现有方法的局限性，并将主动集选择转化为零规范约束优化问题，使用贪心方法求解，进而在实证比较中证明了 GBCD 具有全局收敛的能力并且比竞争算法更快、更准确。

Jun, 2012

Banach 空间中的几何中位数和鲁棒估计

当数据受到重尾噪声污染且可能包含大幅度的离群值时，本文介绍了一种通用方法，通过使用 Banach 空间中取值的可靠估计值，使得即使输入包含了已损坏的测量值也能产生可靠结果，并通过几个实例进行了说明，包括稀疏线性回归和低秩矩阵恢复问题。

Aug, 2013

用平均数中位数保障的机器学习：理论与实践

使用中位数估计器介绍了一种新的鲁棒机器学习估计器，能够在最小数据集假设下实现最佳收敛率，这一方法通过分析异常值而得出。该研究提出一个新的断点概念，该断点数量考虑了估计器的统计性能，同时提高了算法的可实现性。

Nov, 2017

广义拟梯度法的鲁棒估计

研究表明，在许多鲁棒性估计问题中，即使基础优化问题是非凸的，这些问题也能够有效地解决。研究这些鲁棒性估计问题的损失景观，并确定了存在 “广义拟梯度” 的情况。对于分布的鲁棒均值估计，我们证明了一阶稳定点是近似全局最小值，如果损坏水平小于 $1/3$；对于其他任务，包括线性回归和联合均值和协方差估计，我们显示了广义拟梯度的存在，并构建了有效的算法。

May, 2020

私密几何中位数

本文研究了差分隐私算法在计算数据集的几何中位数方面的应用，提出了一对多项式时间的差分隐私算法，并证明其在样本复杂性方面的最优性。

Jun, 2024

异构数据的分布式训练：连接中位数和基于平均值的算法

本文研究介绍了两种分布式非凸优化算法：signSGD 和 medianSGD，并发现它们在数据异构的情况下是不收敛的。作者提出了一种梯度校正机制来消除梯度的平均值和中位数之间的差异，该方法保留了这些方法的良好性质，并实现了全局收敛。此外，该文中所提的梯度校正技术在其他估计平均值的场合也有独立的应用价值。

Jun, 2019

分布式学习中的拜占庭鲁棒随机梯度下降：一种基于 Lipschitz 的逐坐标中位数方法

本文提出了一种新的利普希茨坐标中值方法 (LICM-SGD) 来降低拜占庭攻击对分布式学习中基于随机梯度下降 (SGD) 的分布式算法的影响。该算法不需要关于攻击者数量和利普希茨常数的任何信息，在实现中具有吸引力，并且在多分类逻辑回归和卷积神经网络的训练中的 MNIST 和 CIFAR-10 数据集上，该算法始终表现出色，并且具有更快的运行时间。

Sep, 2019