- 用梯度实现的维度冲击:随机凸优化中的梯度方法的泛化
研究了梯度方法在基础随机凸优化条件下的泛化性能,并关注其与维数的依赖关系。针对全批量梯度下降(GD),通过构建学习问题,在维数为 $ d = O(n^2)$ 的情况下,可以证明经过调整以达到经验风险最优表现的典型 GD(使用 n 个训练样本 - 高斯相位恢复中的加速和隐式正则化
我们研究了高斯相位恢复问题中的加速优化方法,证明了带 Polyak 或 Nesterov 动量的梯度方法具有与梯度下降类似的隐式正则化能力。这种隐式正则化确保算法保持在一个良好的区域,其中成本函数在一般情况下是非凸的,但强凸和光滑的。这确保 - 局部曲率下极小极大博弈梯度方法的本地收敛
本论文研究两人零和可微分博弈梯度方法的局部纳什均衡,证明了只要 S 为非零偏曲率,且反对称矩阵 A 的特征向量与 S 核的一般位置相关,则达到收敛,重点研究了连续游戏和极大极小博弈中的应用。
- 具有马尔可夫噪声的一阶方法:从加速到变分不等式
该论文提出了一种针对马尔可夫噪声的随机优化问题的优化方法,使用随机批处理方案和多层蒙特卡洛方法,在非凸和强凸情况下实现对梯度方法和变分不等式的统一理论分析。此外,该研究消除了以前关于马尔可夫噪声的限制假设,并提供了与优化问题的强凸情况相匹配 - 超参数神经网络动量法的高分辨率动态视角
本研究分析了在训练神经网络时,动量法中的 Heavy Ball 和 Nesterov 方法的收敛性差异,通过高分辨率动态系统和神经切向核理论对具有 ReLU 激活函数的过度参数化双层神经网络进行收敛分析。结果显示 Nesterov 方法比 - Plenoxels:无需神经网络实现的辐射场
Plenoxels 是一种用于光线追踪的系统,将场景表示为一个稀疏的 3D 网格模型,并通过梯度方法和正则化优化,能够实现与神经辐射场相当的质量,却快 100 倍。
- 分布式一阶方法优化的通用框架
本文研究分布式最优化问题,特别关注分布式的梯度方法,针对机器学习和信号处理等领域的实际场景给出了有效的应用方案。
- 梯度方法在可分数据上永不过拟
本文论述了使用梯度方法和指数损失训练线性预测器时,预测器的收敛方向渐近地趋向于最大边缘预测器,但无论迭代次数有多大,标准梯度方法(特别是梯度流、梯度下降、随机梯度下降)永远不会过拟合可分数据集。
- 用梯度方法学习单个神经元
研究单个神经元学习问题,证明了一些限制条件是必要的,同时在更温和的假设下获得了正面保证,超过了目前文献中研究的范围,并指出了进一步加强和推广结果的挑战。
- AAAI基于梯度的贝叶斯偏好调查优化
本研究针对大型物品空间中推荐系统的高效查询问题,提出一种基于渐进方法和蒙特卡罗模拟的推荐方法,使用 TensorFlow 和 PyTorch 等现代机器学习计算框架进行优化,具有良好的可扩展性,可用于对物品进行高效的排序和对查询属性的选择。
- 一种新的对抗图像防御方法:将弱点转化为优势
通过梯度方法可以发现虚假的区域,该文认为这些区域不是弱点而是优势,提出了一种通过检测这些区域的方法来成功检测出对抗攻击的方法,在攻击者完全了解检测机制的情况下,实现了前所未有的准确性。
- 矩阵博弈的方差减少
本研究提出了一种随机原始 - 对偶算法用于求解优化问题,并通过引入新的梯度估计算法,将计算复杂度降低到矩阵稀疏的情况下达到了最优。
- ICML非凸优化中 RMSProp 和 ADAM 的收敛性保证及与 Nesterov 加速的实证比较
本篇论文探讨了 ADAM 和 RMSProp 优化算法的理论性质和收敛性能,并通过实验比较了它们与 Nesterov 梯度法在多种自编码器结构和数据集上的表现,并表明调整其超参数可以获得更好的泛化性能。
- LAG:用于通信高效分布式学习的惰性聚合梯度
本文提出了一种新类的渐变方法,用于分布式机器学习,可以通过自适应地跳过梯度计算来降低通信和计算成本,并经过了数值实验的验证。
- 神经网络训练中的局部极小值
本文主要探讨了对于深度模型的错误表面进行特征化的兴趣,揭示在某些条件下,深度模型的局部最小值会影响模型训练的结果,需要额外的数据前提、初始化方案和 / 或模型类来支持全局最佳解的优化。
- 关于优化中的加速方法
本文探讨了凸优化中梯度方法的加速现象,并将高阶梯度方法与拉格朗日泛函等价地联系起来,同时得出拉格朗日量具有时空不变性的结论。
- 凸优化的梯度方法:在较弱条件下获得更好的收敛速率
本文研究了梯度方法在凸优化中的收敛行为,证明了仅满足某些线段上的 Lipschitz 连续性和强凸性条件时,其复杂度可达到已知的最优值。同时,利用切线条件和投影的约束得到了更为松弛的条件,并应用于稀疏优化问题中构造更快的求解算法。