- 回归问题的深度线性网络在隐含规范化方面趋向于平坦的最小值
神经网络的海森矩阵的最大特征值(或清晰度)是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大,但不可以任意小。事实上,我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找 - 从零到英雄:艺术简单初始条件下的局部曲率导致远离不良最小值
我们研究了非凸和高维环境中梯度下降的优化动力学,重点研究了相位恢复问题作为复杂损失地形的案例研究。我们通过分析优化过程中局部曲率的变化,发现在下降的第一个阶段中,对于中等信噪比,Hessian 矩阵显示出朝向好的极小值的下降方向,然后被困在 - 重尾类不平衡问题及 Adam 在语言模型上的优越性
Adam 优化算法在大型语言模型上的性能明显优于梯度下降算法,主要原因是语言建模任务中存在的类别不平衡导致优化动态困难。
- 神经网络初始化中的金发女郎区域解构
这篇论文通过对深度学习模型的优化动力学进行全面分析,探讨了训练损失的二阶性质对模型的影响,特别关注了与高度可训练的初始点相关联的 “Goldilocks zone” 概念,提出了正曲率对深度网络的可训练性的重要性,并讨论了与模型自信度、初始 - 面对数据不平衡的多语言学习中的顺序问题
本文从实证角度研究了多任务学习的优化动态,特别关注了在存在显著数据不平衡的多个任务集合中所涉及的优化过程。我们提出了一种简单但有效的方法,即在高资源任务上进行预训练,然后在高 / 低资源任务的混合中进行微调。通过彻底的实证研究和分析,我们证 - 现代深度学习中为什么我们需要权重衰减?
从 ResNets 到 LLMs 的统一视角,权重衰减不是一个显式正则化器,而是以期望的方式改变训练动态。
- 神经网络优化路径的简单几何
本研究探讨了神经网络中采样梯度沿优化路径的基本几何特性,发现这些特性在大多数训练期间保持稳定动态,并提供了线性收敛的理论保证和反映经验实践的学习率计划。
- 理解 ReLU 网络的多阶段优化动态和丰富非线性行为
本研究通过对 ReLU 神经网络的训练过程进行理论性分析,揭示了从随机初始化到最终收敛的整个优化过程,并发现了四个不同阶段,显示了一个从简单到复杂的总体趋势,此外还可以精确地识别和捕捉特定的非线性行为,如初始凝结、鞍点到高原动态、平台逃逸、 - MM球面负感知机解的星形空间
研究了负球面感知器模型中的能量壁垒、简单连接性质和优化动力学,并通过计算和数值模拟表征了解决方案空间的组织结构和转换过程。
- KDD基于普适难度指标的样本权重调整理解
本研究证明了样本的泛化误差可以作为普适的难度度量,进一步提供了关于基于难度加权的有效性的正式理论证据,显示了其对深度模型优化动态和泛化性能的积极影响,具有指导现有加权方案的作用。
- 理解强化学习中的自预测学习
本篇研究探讨了自预测学习的学习动态,通过对优化动态的设计,提出了双向自学习算法,并通过一系列实验验证了该算法的有效性。
- 深度学习中重要性加权的作用理解
通过对深度学习模型中重要性加权的研究,本文提供了正式的表征和理论证明,并揭示了在深度学习模型下的优化动态和泛化性能,扩展到了许多活跃研究领域。
- 深度核学习的前景和风险
研究深核学习在处理真实数据时可能存在的过拟合问题及其原因,使用 UCI、CIFAR-10 和 UTKFace 三个数据集进行实验验证。发现过度最大边缘似然优化可能会导致严重的过拟合问题,并通过完全贝叶斯方法得到了更好的性能提升。
- 多任务学习中转移的测量与利用
本文分析了多任务学习的信息传递动态,并开发了可量化任务间信息转移的相似度度量方法,从而使得我们在宏观和微观层面上提出了两种方法来优化多任务学习性能,这些方法在三个监督式多任务学习基准和一个多任务强化学习范式上都有显著改进。
- 基于 Hessian 的 SGD 分析:深度网络的动力学和泛化
本文通过对训练损失函数的海森矩阵及其相关量的分析,探讨了随机梯度下降(SGD)的优化动态和泛化行为等三个问题,并在合成数据、MNIST 和 CIFAR-10 数据集上进行了大量实验支持其理论结果。
- 稀疏神经网络训练的难点
本文研究了训练稀疏神经网络的困难,并对稀疏区间内的优化动态和能量景观进行了新的观察。研究发现,尽管优化器的失败,但存在一条线性路径从初始化到 “好” 的解,并从 “稀疏” 到 “稠密” 的子空间中寻找这条路径,可以帮助稀疏神经网络避开常见的 - ICML随机梯度下降中的各向异性噪声:脱离尖锐极小值的行为和正则化效应
通过研究梯度下降优化动力学的一般形式,分析在逃离极值和其正则化效应方面的行为,提出了一个新颖的指标来表征逃离最小值的效率,并建立了两个条件来确定哪种类型的噪声结构在逃脱效率方面优于各向同性噪声。结果表明,随着与损失函数曲率的对齐,异性噪声有