- 高效联邦低秩矩阵补全
我们开发并分析了一种基于梯度下降(GD)的解决方案,称为交替 GD 和最小化(AltGDmin),以在联邦环境中高效解决低秩矩阵完成(LRMC)问题。我们的理论保证(迭代和样本复杂度界限)表明 AltGDmin 是联邦环境中最高效的解决方案 - 梯度下降训练的可防御黑板架构系统的实施与评估
提出了在黑板架构中引入可辩护风格的梯度下降训练能力,并介绍了激活函数用于可辩护人工智能系统的使用,以及实施和评估了一种新的基于最佳路径的训练算法。
- 基于模型的离线量子强化学习
这篇论文提出了第一种基于模型的离线量子强化学习算法,并在滑车杆平衡问题上展示了其功能。模型和待优化的策略都以变分量子电路的形式实现。通过梯度下降,模型被训练以拟合预先记录的数据集。策略使用无梯度优化方案,以模型给出的回报估计作为适应度函数进 - 随机凸优化中梯度下降的样本复杂度
我们分析了非光滑随机凸优化中全批量梯度下降(GD)的样本复杂性,表明 GD 的泛化误差与最优超参数选择的样本复杂性匹配,可以表示为 Θ(d/m + 1/√m),其中 d 为维度,m 为样本大小,这与最坏情况下的经验风险最小化器相符,这意味着 - 块对角引导 DBSCAN 聚类
介绍了一个改进版本的 DBSCAN 算法,利用相似性图的块对角特性来引导聚类过程,通过未知排列构建图,并通过梯度下降求解,最终生成块对角图结构,以提供自动和交互式聚类分析的基础。
- DPPE:在 Plenoxels 环境中使用梯度近似进行密集姿态估计
我们提出了 DPPE 算法,它是一个基于 Plenoxels 环境的密集姿态估计算法,并通过随机梯度下降来优化姿态估计,利用 Plenoxels 的快速渲染速度来近似计算姿态梯度。
- 机器学习优化的正交基分段多项式逼近
利用分段多项式来近似 1D 轨迹规划中电子凸轮设计的函数,结合现代机器学习优化器,特别是梯度下降方法,利用正交多项式基函数以及创新的正则化方法,在模型参数优化和连续性优化方面取得了明显提升的收敛性能。
- 利用连续时间理解对角线线性网络训练中的动量
通过分析动量梯度下降的连续时间方法,我们研究了动量对优化轨迹的影响,并得到了唯一定义优化路径和提供简单加速规则的内在量 λ = γ / (1 - β)²。通过在超参数化回归环境中训练 2 层对角线线性网络,我们表征了隐式正则化问题中的恢复解 - 方向平滑性和梯度方法:收敛性和适应性
我们开发了一种梯度下降法的新次优性边界,该边界依赖于优化路径中的目标条件,而不是全局最坏情况下的常数。我们的证明关键在于方向平滑性,这是一种梯度变化的度量,我们用它来开发上界约束。通过求解隐式方程来最小化这些上界约束,我们展示了这些方程对于 - 水平集传送:优化视角
通过最大化目标函数水平集上的梯度范数,我们研究了一种叫做级别集传送的优化子程序,该程序旨在加速梯度方法。我们证明了当优化间隙很小时,级别集传送的梯度下降法具有比标准梯度下降法更快的子线性 / 线性收敛速率,但在凸函数满足 Hessian 稳 - 从零到英雄:艺术简单初始条件下的局部曲率导致远离不良最小值
我们研究了非凸和高维环境中梯度下降的优化动力学,重点研究了相位恢复问题作为复杂损失地形的案例研究。我们通过分析优化过程中局部曲率的变化,发现在下降的第一个阶段中,对于中等信噪比,Hessian 矩阵显示出朝向好的极小值的下降方向,然后被困在 - 重尾类不平衡问题及 Adam 在语言模型上的优越性
Adam 优化算法在大型语言模型上的性能明显优于梯度下降算法,主要原因是语言建模任务中存在的类别不平衡导致优化动态困难。
- 逻辑损失的大步梯度下降:损失的非单调性提高了优化效率
使用常数步长的梯度下降算法应用于线性可分数据的逻辑回归,证明了在初始震荡阶段后,算法能够在 a 步的时间内实现 O (1/(aT)) 的收敛速率,从而在总步数为 T 的情况下,通过积极地调整步长可以达到 O (1/T^2) 的加速损失,无需 - 线性变换器块中上下文学习的好处:MLP 组件和一步梯度下降初始化
研究了线性变换器块(LTB)的上下文学习(ICL)能力,证明了 LTB 可以实现几乎贝叶斯最优的 ICL 风险,并且通过多层感知器(MLP)层减小了近似误差。
- 基于平衡 k 均值的不均衡数据聚类
平衡 K-means(EKM)是一种新颖且简单的 K-means 类型算法,通过减少大簇中心聚集的趋势,在不平衡数据上显著改善聚类结果。该论文还介绍了 HKM、FKM 和 EKM 的统一视角,展示它们本质上是梯度下降算法,并与牛顿法有明确的 - 线性变换器是多功能的上下文学习器
线性 Transformer 能隐式地执行梯度下降算法和找到优化策略。
- 大学习速率下梯度下降的稳定性
在本文中,我们证明了在使用二次损失函数优化的线性神经网络中,梯度下降映射是非奇异的,损失函数的全局极小化集合形成平滑流形,并且稳定的极小值在参数空间中形成有界子集。另外,我们证明了如果步长过大,则使梯度下降收敛到临界点的初始化集合的测度为零 - 递归神经网络的梯度下降的收敛性:非渐近分析
我们分析了在有监督学习环境下使用梯度下降法训练的递归神经网络在动态系统中的表现,并证明了在没有大量过参数化的情况下,梯度下降法可以实现最优性。我们深入的非渐近分析 (i) 以序列长度 $T$、样本大小 $n$ 和环境维度 $d$ 为条件给出 - 李群上的随机海森拟合
该研究通过 Hessian 拟合及其逆方法与随机 Hessian 向量积的拟合准则对常用方法(如 BFGS、Gaussian-Newton、AdaGrad 等)进行了分析,揭示了不同的 Hessian 拟合方法具有不同的收敛速度,对于欧几里 - 梯度优化中的走廊几何
通过研究梯度下降和梯度流的轨迹相同、损失线性减少的走廊区域,提出了走廊学习率自适应方案(CLR),证实了这种方案在神经网络的收敛性上的好处。