- 深度学习中使用梯度下降法无法逼近极小值
我们分析了深度学习网络中梯度下降算法的几何方面。具体而言,我们证明了对于欠参数的 ReLU 深度学习网络,Chen-Munoz Ewald 2023 论文中构建性地获得的全局最小成本所对应的权重和偏差通常无法通过梯度下降流逼近。因此,我们得 - 使用具备理论性能保证的生成模型进行离群点检测
通过离群点检测方法,我们提出了一种用于从受稀疏离群点污染的线性测量中恢复基于生成模型的信号的方法。我们的理论结果适用于线性生成型神经网络和非线性生成型神经网络,并提出了一个基于交替方向乘子法和梯度下降的迭代算法,能够成功地在离群点存在的情况 - 无线联邦学习中异构集群的隐私聚合
本文介绍了一种私有集成学习方案,以处理联合学习中的隐私问题,并推导出信息论隐私所需的通信成本的基本限制。
- Stackelberg 拥堵博弈的可微双层规划
本研究采用可微编程方法来解决 Stackelberg 拥堵博弈问题,并提出了一种单循环算法,该算法通过跟随关注者的演化路径,实现了领导者的决策更新,在效率方面比标准双循环实现和文献中的其他方法表现更好。
- 不对称低秩矩阵分解的梯度下降全局收敛性
本研究论文首次证明了初始化的随机梯度下降算法可以在多项式时间内收敛到具有对称和非对称特点的低秩矩阵分解问题的全局最小值,该证明基于新的对称化技术和定量扰动分析方法,并可以拓展到其他相关的非凸问题。
- 神经切向核视角下 PINNs 训练失败的时间和原因
本文从神经切向核角度研究了具有物理约束的神经网络的训练以及其训练过程中收敛率不同的 loss 组件,提出了一种利用 NTK 的特征值来自适应地校准误差收敛率的优化算法。
- 具容错机制和高通信效率的分布式学习模型
本篇论文介绍了一种分布式学习算法,通过采用压缩梯度和梯度阈值等方法,减少了拜占庭故障的影响,并提高了通信效率,以达到优化分布式机器学习的目的。
- 重新审视 Polyak 步长
通过证明其简单变体可同时在强凸性、平滑性和 Lipschitz 参数的所有范围内,不需要关于这些参数的先验知识,为梯度下降算法获得接近最优的收敛速度,本文重新审视了用于解决凸优化问题的 Polyak 步长调度。
- MM函数相对于集合的条件数
本文研究了不同 iable 凸函数的条件数及其与其性质和一阶方法的线性收敛性之间的关系,提出了相对于参考凸集和距离函数对的可微凸函数的相对条件数,并在特定条件下对其进行了限定。
- NIPS深度学习中步长的重要性
利用梯度下降算法训练神经网络会导致产生离散时间非线性动力系统,算法步长对这些系统的收敛行为有决定性的影响并能解释实际问题中观测到的多种现象,如训练误差的恶化和深度残差网络的性能差异等。
- 过参数化矩阵感知和二次激活神经网络中的算法正则化
本文研究了正定矩阵和一层神经网络的学习问题,通过梯度下降算法和二次激活函数的方式来实现隐式正则化,提出利用 UU 转置参数化正定矩阵并最小化平方损失函数的方法来恢复正定矩阵,并且证明在初始值的基础上,梯度下降算法大约在 O (sqrt (r - 关于精确低秩张量完成的多项式时间方法
研究了张量恢复中的样本量要求,提出梯度下降算法结合谱方法来重建低秩高阶张量,事实证明我们的方法在保证高概率的情况下只需要 O (r^7/2*d^3/2*log^7/2 (d)+r^7*d*log^6 (d)) 个样本,且可以很好地处理低秩多 - 非凸低秩矩阵估计的统一计算与统计框架
提出了一种基于梯度下降算法的非凸优化的低秩矩阵估计的统一框架,其通用性很强,可应用于噪声和无噪声观测,算法能够线性收敛到未知低秩矩阵的最小最优统计误差,同时也能够以线性速率收敛到未知低秩矩阵,并以最优样本复杂度实现精确恢复。
- Frank-Wolfe 算法的多面体调节和线性收敛
研究表明,当在具有 Lipschitz 梯度的强凸函数上应用梯度下降算法时,其收敛速度由函数的条件数决定且算法收敛速度类似于一个带有离开步骤的 Frank-Wolfe 算法。在对无约束情况的良好扩展中,算法的收敛速度由函数的条件数及多面体的 - 固定秩正半定矩阵的回归:一种黎曼方法
本文主要研究关于使用梯度下降算法在一组定秩半正定矩阵的几何结构下建立回归模型,并且将该算法用于距离函数参数学习问题中,达到了不错的效果。