MBGDT: 鲁棒性 Mini-Batch 梯度下降

Jun, 2022

MBGDT:Robust Mini-Batch Gradient Descent

Hanming Wang, Haozheng Luo, Yue Wang

TL;DR本文研究高维度机器学习，提出一种基于 mini-batch 梯度下降的新方法（MBGDT），并在设计的数据集中展现出表现优异和更强的鲁棒性。

Abstract

In high dimensions, most machine learning method perform fragile even there are a little outliers. To address this, we hope to introduce a

high dimensions machine learning outliers mini-batch gradient descent mbgdt

发现论文，激发创造

通过加速梯度方法实现更好的小批量算法

通过加速梯度方法，改进小批量算法加速随机凸优化问题，提供新颖分析证明标准梯度法有时不足以获取大幅加速，提出一种新的加速梯度算法，解决了这个缺点，并在实践中表现良好。

Jun, 2011

关于深度学习大批量训练的广义缩小和尖峰最小化问题

通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值，从而导致模型泛化能力下降，而小批量方法表现更好，这可能是由于梯度估计中的固有噪声引起的，可以采用多种策略来帮助大批量方法消除这种泛化差距。

Sep, 2016

鲁棒梯度下降的高效学习

提出了一种构建稳健风险梯度逼近的算法，在实验中证明可以有效地提高广义学习效率并使用更少的资源，而不会过度依赖于数据。

Jun, 2017

贝叶斯视角下的泛化和随机梯度下降

研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集，以及为什么随机梯度下降找到的最小值能很好地推广；探讨了小批量大小影响参数朝向大证据最小值的作用；当学习速率固定时，建议选择使测试集准确性最大化的最佳批次大小。

Oct, 2017

鲁棒 - GBDT: 一种新的梯度提升模型用于噪声鲁棒分类

该研究介绍了一种名为 Robust-GBDT 的噪声鲁棒增强模型，该模型在多类分类任务中应用广泛，通过采用凸可靠损失函数和处理类不平衡的新型鲁棒损失函数，有效抵抗标签噪声和类别不平衡，提高了分类准确性和泛化能力。

Oct, 2023

分布鲁棒学习的无偏梯度估计

通过分布式鲁棒性学习，我们提出了一种新的方法以解决模型的泛化问题，该方法采用随机梯度下降求解外层最小化问题，并通过多层蒙特卡罗随机化有效地估计内层最大化问题的梯度，并通过得出理论结果确定了梯度估计器的最佳参数化，从而在计算时间和统计方差之间平衡。数值实验证明，我们的 DRL 方法在以往研究中具有显著优势。

Dec, 2020

大规模经验风险最小化的加速双随机梯度算法

本研究提出了一种双重随机算法，使用新的加速多动量技术来解决学习任务中的大规模经验风险最小化问题，各迭代只访问一小批样本和同时更新一小块变量坐标，从而在同时涉及海量样本大小和超高维度时显著减少了内存引用量，实证研究也说明了该方法在实践中的高效性。

Apr, 2023

小批次随机梯度下降和局部随机梯度下降的稳定性与泛化能力

通过稳定性和泛化性分析研究了小批量随机梯度下降和本地随机梯度下降的学习能力，从而证明它们可以实现线性加速度以达到最佳风险界限。

Oct, 2023

自适应批处理大小的自动推理：大批量 SGD

本文介绍了一种采用自适应 “大数据块” 随机梯度下降方案的方法，以维持梯度逼近的信噪比的稳定，从而实现自动学习率选择和避免步长衰减，并且不需要目标函数凸性的限制。

Oct, 2016

大规模深度学习的可伸缩实用自然梯度

本文提出了 Scalable and Practical Natural Gradient Descent（SP-NGD）算法，一种能够解决大规模深度神经网络训练中 mini-batch size 增加导致泛化能力下降的问题，且能够快速收敛并达到类似一阶优化方法的泛化性能，同时可进行大规模分布式训练。实验结果表明，使用 SP-NGD 算法进行 ImageNet 数据集上的 ResNet-50 模型训练，能够在 5.5 分钟内，使用 32768 的 mini-batch size 和 1024 个 GPU，获得 75.4% 的 top-1 验证精度；且在 873 个步骤内，即使使用极大的 mini-batch size=131072，也能够达到 74.9% 的准确率。

Feb, 2020