浅入深出:对大规模浅层学习的计算视角
本文通过学习一个 $k$ 位稀疏的 $n$ 位奇偶性来探索大规模数据集、模型规模和训练时间对模型训练计算问题的影响。研究发现神经网络可以成功地学会稀疏的奇偶性,并在训练过程中存在非连续的相变点。理论分析表明,这些观察结果不是通过 Langevin-like 机制解释的,而是通过在人口梯度中的 Fourier 间隙逐渐放大稀疏解来实现。
Jul, 2022
探讨了正定核及其相关重现核希尔伯特空间的逼近性质,包括核算子和矩阵的特征值衰减、特征函数 / 特征向量的性质、核空间中函数的 “傅里叶” 系数以及核的拟合能力等,并给出了限制在离散数据点上的重现核希尔伯特空间球体的胖打散维度的明确界限,讨论了正定核的容量限制及其对梯度下降等算法的影响。
Jan, 2018
本文针对超参数模型上的梯度下降进行了研究,证明小随机初始化后的梯度下降与受欢迎的谱方法相似,并且可以在全局最优解附近泛化良好。具体而言,对于通过自然的非凸公式重构低秩矩阵的问题,我们证明了梯度下降迭代的轨迹可以近似分解为三个阶段。
Jun, 2021
介绍了可伸缩的深度核,将深度学习架构的结构属性与核方法的非参数灵活性相结合,通过局部核插值、引入点、Kronecker 和 Toeplitz 代数进行转换,使用这些闭式核可以用作标准核的替代品,在表达能力和可伸缩性方面具有优势,通常情况下,学习和推断代价为 $ O (n)$,而预测代价为每个测试点的 $O (1)$。
Nov, 2015
神经网络的海森矩阵的最大特征值(或清晰度)是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大,但不可以任意小。事实上,我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找到的最小化器的性质,这是梯度下降的极限情况,学习率趋于零。我们证明了对于平坦最小值的隐式正则化:最小化器的清晰度不超过下界的一个常数倍。该常数取决于数据协方差矩阵的条件数,而不取决于宽度或深度。我们分别证明了小尺度初始化和残差初始化的结果。对于小尺度初始化,我们证明了所学权重矩阵近似为秩一及其奇异向量对齐。对于残差初始化,我们证明了高斯初始化的残差网络的梯度流的收敛性。数值实验验证了我们的结果,并将其与非零学习率的梯度下降联系在一起。
May, 2024
通过随机梯度下降(SGD)和经验 Hessian 和梯度矩阵的谱的联合演化,我们严格地研究了训练动态的联合演化。我们证明,在多类高维混合和单层或两层神经网络的两个典型分类任务中,SGD 轨迹迅速与 Hessian 和梯度矩阵的新出现的低秩异常特征空间对齐。此外,在多层设置中,这种对齐是逐层进行的,最后一层的异常特征空间在训练过程中发生变化,并在 SGD 收敛到次优分类器时呈现秩亏。这些结果证实了过去十年中关于过参数化网络在训练过程中 Hessian 和信息矩阵的谱的广泛数值研究中出现的一些丰富预测。
Oct, 2023
本文证明,在计算梯度时只要误差小且一致,Nesterov 的一阶优化算法的最优复杂度不变,应用到半定规划中,仅计算当前迭代的少数前导特征值而不是全矩阵指数,大幅减少了方法的计算成本,同时还可使用稀疏最大特征值包有效地解决稀疏问题。
Dec, 2005
本文研究贝叶斯推断问题,特别关注于最近引入的斯坦变分梯度下降方法,介绍了该方法的交互粒子系统构建;并通过研究选择合适的正定核函数的问题,提出采用调整尾部的某些不可微核函数,证明在各种数值实验中这种方法具有明显的性能提升。
Dec, 2019
本文研究表明,在大规模深度学习场景中,梯度在短时间训练后动态地收敛到一个非常小的子空间。该子空间由海森矩阵的前几个特征向量构成,并在长时间训练中大部分保持不变。我们给出了一个分类问题可解模型的例子,并对此效应对优化和学习的潜在影响进行了评论。
Dec, 2018
本文旨在正式解释当代机器学习中观察到的 SGD 快速收敛现象。我们重点观察现代学习架构是过参数化的,并且被训练用于通过将经验损失(分类和回归)驱动到接近零的插值数据。我们表明,这些插值方案允许 SGD 快速收敛,与全梯度下降迭代次数相当。对于凸损失函数,我们获得了与全梯度下降相似的 “迷你批次” SGD 的指数收敛界限。关键的迷你批次大小可以视为有效迷你批次并行化的限制,并且几乎独立于数据大小。
Dec, 2017