在这篇论文中,我们展示了常用的算法(如 RMSProp 和 Adam)在调整步长向量时忽略了其适应过程对整体目标函数的影响,并通过简单问题的实验显示,与 RMSProp 和 Adam 相比,IDBD 算法可以持续改进步长向量。我们讨论了两种方法的差异和各自的限制,并建议将两种方法结合起来以提高神经网络在持续学习中的性能。
Jan, 2024
本研究从基本原理出发,探讨了机器学习中梯度下降法中步长远大于 $2/L$ 时导致不稳定收敛的现象特征和成因,结合理论和实验给出了系统的认识。
Apr, 2022
研究浅层神经网络的训练动态,探究少量大批量梯度下降步骤在哪些条件下可以促进核区以外的特征学习。
May, 2023
我们提出了一种新的逐层自适应步长过程,用于解决深度学习中用于最小化经验损失函数的随机一阶优化方法中需要调整学习率的问题,并且实验证明这种方法比 fine-tuned 学习率的方法以及一些常见的一阶或二阶优化方法更有效。
本文提出了一种基于损失函数进行梯度重新标度的步长自适应方案(Stepsize Adaptation Scheme),以达到对损失的预测进度的固定要求。作者用 Adam 和 Momentum 优化器进行了实验,通过该方案改进了它们的性能,在多种网络结构和数据集上进行了验证。与定常步长相比,增强优化器在不增加计算量的情况下,表现稳定优于定常步长优化器,甚至是最佳的优化器。
Feb, 2018
研究了使用大的恒定步长的逻辑回归问题上的梯度下降(GD)动态。
Jun, 2024
通过对大步长梯度下降在二次回归模型中的动力学进行全面调查,揭示了动力学可以由特定的三次映射来描述,并通过细致的分叉分析划分了五个不同的训练阶段,同时研究了非单调和非发散阶段的泛化性能。
Oct, 2023
本论文提出一种简单的统计程序,可以有效地检测恒定步长随机梯度下降法的转换和稳定阶段,从而快速获得收敛结果。这种统计程序在人工数据集和实际数据集上表现出最先进的性能,即便目标函数为二次时,传统的 Pflug 检验方法也不能提供足够的诊断。
Jul, 2020
通过对教师 - 学生感知器分类模型的研究,我们在 B-η 平面上获得了一个相图,分为三个动力学相:(i) 由温度控制的噪声主导的 SGD,(ii) 由大步长主导的 SGD 和 (iii) GD,这些不同相还对应着不同的泛化误差区域。有趣的是,我们的分析揭示了将相 (i) 和相 (ii) 分隔开的批次大小 B * 与训练集大小 P 呈比例,其中的指数表征了分类问题的难度。
Sep, 2023
本研究提出了一种新的视角来分析随机梯度下降,即将其作为一阶随机微分方程(SDE)的离散化,进而推导出了使得离散化后的系统与连续时间系统行为相似的步长条件,并分析了算法和问题参数对误差的影响。
Jun, 2019