MBGDT: 鲁棒性 Mini-Batch 梯度下降
通过加速梯度方法,改进小批量算法加速随机凸优化问题,提供新颖分析证明标准梯度法有时不足以获取大幅加速,提出一种新的加速梯度算法,解决了这个缺点,并在实践中表现良好。
Jun, 2011
通过实验证明大批量随机梯度下降法容易陷入训练和测试函数的尖峰最小值,从而导致模型泛化能力下降,而小批量方法表现更好,这可能是由于梯度估计中的固有噪声引起的,可以采用多种策略来帮助大批量方法消除这种泛化差距。
Sep, 2016
研究机器学习中的二个核心问题 —— 如何预测最小值是否能推广到测试集,以及为什么随机梯度下降找到的最小值能很好地推广;探讨了小批量大小影响参数朝向大证据最小值的作用;当学习速率固定时,建议选择使测试集准确性最大化的最佳批次大小。
Oct, 2017
该研究介绍了一种名为 Robust-GBDT 的噪声鲁棒增强模型,该模型在多类分类任务中应用广泛,通过采用凸可靠损失函数和处理类不平衡的新型鲁棒损失函数,有效抵抗标签噪声和类别不平衡,提高了分类准确性和泛化能力。
Oct, 2023
通过分布式鲁棒性学习,我们提出了一种新的方法以解决模型的泛化问题,该方法采用随机梯度下降求解外层最小化问题,并通过多层蒙特卡罗随机化有效地估计内层最大化问题的梯度,并通过得出理论结果确定了梯度估计器的最佳参数化,从而在计算时间和统计方差之间平衡。数值实验证明,我们的 DRL 方法在以往研究中具有显著优势。
Dec, 2020
本研究提出了一种双重随机算法,使用新的加速多动量技术来解决学习任务中的大规模经验风险最小化问题,各迭代只访问一小批样本和同时更新一小块变量坐标,从而在同时涉及海量样本大小和超高维度时显著减少了内存引用量,实证研究也说明了该方法在实践中的高效性。
Apr, 2023
本文介绍了一种采用自适应 “大数据块” 随机梯度下降方案的方法,以维持梯度逼近的信噪比的稳定,从而实现自动学习率选择和避免步长衰减,并且不需要目标函数凸性的限制。
Oct, 2016
本文提出了 Scalable and Practical Natural Gradient Descent(SP-NGD)算法,一种能够解决大规模深度神经网络训练中 mini-batch size 增加导致泛化能力下降的问题,且能够快速收敛并达到类似一阶优化方法的泛化性能,同时可进行大规模分布式训练。实验结果表明,使用 SP-NGD 算法进行 ImageNet 数据集上的 ResNet-50 模型训练,能够在 5.5 分钟内,使用 32768 的 mini-batch size 和 1024 个 GPU,获得 75.4% 的 top-1 验证精度;且在 873 个步骤内,即使使用极大的 mini-batch size=131072,也能够达到 74.9% 的准确率。
Feb, 2020