- 自动梯度下降与广义牛顿法
我们提出了广义牛顿法(GeN)—— 一种基于海森矩阵的方法,适用于任何优化器(如 SGD 和 Adam),并将牛顿 - 拉弗森法作为一个子案例。我们的方法自动动态地选择加速收敛的学习率,无需进行繁琐的学习率调度。在实践中,我们的方法易于实施 - 解决语言模型计算最优扩展的差异
Kaplan 等人和 Hoffmann 等人为计算预算的优化模型大小开发了有影响力的扩展定律,但这些定律给出了截然不同的预测结果;通过在两个数据集上重现 Kaplan 定律,并识别出最终层计算成本、预热时间和规模相关的优化器调整等三个因素, - 学习率自适应的随机梯度下降优化方法:深度学习偏微分方程数值模拟与收敛分析
我们提出并研究了一种基于经验估计目标函数值的学习率自适应方法,用于随机梯度下降优化方法,并在多个神经网络学习问题中实施。我们证明了学习率自适应变体的 SGD 优化方法对于一类简单的二次最小化问题收敛于最小化器。
- 基于计算机深度学习的心血管疾病早期预警模型研究
基于一维卷积神经网络的心血管疾病风险预警模型,通过填充和标准化 13 个生理指标,将卷积神经网络转化为二维矩阵,并采用一阶卷积操作和最大池化算法进行降维,通过 Adam 算法进行优化。相对于传统方法,该技术的预测精度提高了 11.2%,对数 - 为什么要热身学习率?机制及改进
通过系统性实验证明,深度学习中热身起始学习率对于训练结果的显著好处在于使网络能够容纳更大的目标学习率,并将网络推向更好条件的损失函数区域,从而提高超参数调优的鲁棒性和最终性能,同时揭示了不同热身阶段的运行模式,根据初始化和参数化的不同,在一 - 在没有梯度噪声的权重矩阵谱中制造重尾
通过分析深度神经网络的重尾谱、梯度噪声和学习率等因素,我们揭示了深度神经网络在有限的训练步骤后可以生成重尾谱的机制,并研究了重尾谱与泛化能力之间的相关性。
- 优化学习率和批次大小缩放中的涌现现象
Adam style 优化器中,最佳学习率和批量大小之间存在一种缩放规律,通过理论分析和实验验证了这种规律。
- 如何随着模型和数据集的规模调整 AdamW 的权重衰减
AdamW 算法中的权重可以理解为近期更新的指数移动平均 (EMA),通过 EMA 时间尺度选择合适的权重衰减,以确保权重衰减与模型和数据集的规模相匹配,并得出 EMA 时间尺度的合理取值范围。
- 迈向无参数优化的稳定性
提出了一种无需手动调节参数的优化器 AdamG,通过使用 AdaGrad-Norm 算法中的黄金步长派生技术,自动适应不同的优化问题并实现了与手动调节学习率的 Adam 相当的优化性能。
- 如何对不对称量化范围进行参数化,用于量化感知训练
本研究通过比较分析三种不对称均匀量化的参数化方法,即比例和偏移、最小值和最大值以及 β 和 γ,来研究其对量化感知训练的影响。我们使用控制实验和实际大型语言模型的数据进行全面分析,并着重探讨其在关键训练超参数、比特宽度和学习率变化时的行为。 - 无验证的调参:在训练集上搜索学习率和权重衰减
通过 Tune without Validation(Twin)管道,我们介绍了一种可以在没有验证集的情况下调整学习率和权重衰减的方法。我们利用最近关于假设空间中学习阶段的理论框架来设计一种启发式算法,该算法可以预测哪些超参数组合能够获得更 - Follow-the-Regularized-Leader 竞争比分析及最佳学习率自适应
Follow-The-Regularized-Leader (FTRL) 在在线学习中是一种有效且多功能的方法,调整其学习率的问题被形式化为序贯决策问题,并引入了竞争分析的框架。我们提出的学习率更新规则通过与竞争比率的下限相差一个常数因子来 - 使用常数和衰减的学习率的随机梯度下降的迭代和随机一阶预言机复杂度
使用常数或递减的学习率的随机梯度下降法(SGD)与关键的批次大小能够最小化深度学习中的非凸优化的随机一阶复杂性,并且与现有的一阶优化器相比较具有实用性。
- LoRA+:大型模型的高效低秩自适应
通过设置适当的比率为 LoRA 适配器矩阵 A 和 B 设置不同的学习率,我们提出了一种名为 LoRA$+$ 的算法,解决了 LoRA 的次优问题同时提高了性能(1-2%改进)和微调速度(最高约 2 倍速度提升)的问题。
- 随机梯度下降(SGD)的收敛速度及其在修改后的多臂赌博机策略梯度中的应用
我们提供了随机梯度下降法(SGD)在学习率遵循逆时间衰减策略时收敛速度的自包含证明,并将该结果应用到带有 L2 正则化的改进型策略梯度多臂赌博问题的收敛中。
- 晚期学习率衰减的泛化优势理解
神经网络在大学习率和长时间训练的情况下为什么通常能够更好地泛化?本文通过分析神经网络中训练和测试误差之间的关系,探讨这个问题。通过对这些误差进行可视化,我们发现大学习率的训练轨迹穿越了训练误差的极小值流形,最终接近测试误差的最小值附近。在这 - 通过简单的重标准化策略稳定锐度感知最小化
通过提出稳定的 SAM 策略,我们解决了使用 SAM 训练神经网络的不稳定性问题,并通过理论分析发现稳定 SAM 在扩展学习率范围内能够比 SAM 表现更好,并在多个数据集和任务上验证了其改进的性能。
- 通过参数缩放解释自适应梯度方法对无学习率优化的解读
我们提出解决在训练深度神经网络中用于自适应梯度方法的学习率估计的挑战。我们将自适应梯度方法解释为应用于参数缩放网络的最陡下降方法,并提出了无学习率的自适应梯度方法。实验结果验证了该方法的有效性,并证明在各种情况下,其性能与手动调优的学习率相 - 温度平衡、逐层权重分析与神经网络训练
该论文提出了 TempBalance,一种简单而有效的逐层学习率方法,基于 Heavy-Tailed Self-Regularization (HT-SR) 理论,并展示了使用 HT-SR 相关指标来指导模型训练中的温度调度和平衡,从而改善 - 大学习速率下随机梯度下降的良性振荡
通过理论研究神经网络在大学习率随机梯度下降算法训练中的泛化性能,我们发现大学习率下神经网络权重的振荡对神经网络的泛化是有益的,并且可能优于小学习率下平滑收敛的神经网络。我们称这种现象为 “良性振荡”。利用深度学习的特征学习视角,我们的理论研