- 广义平滑下的凸优化和非凸优化
本文介绍了一种新的非均匀光滑条件下的优化方法,并开发出一种简单但有效的分析技术来限制沿轨迹的梯度,从而获得更强的凸优化和非凸优化问题的结果。我们通过这种新方法证明了(随机)梯度下降和 Nesterov 加速梯度法在这种一般的光滑条件下的收敛 - 朝向可持续学习:用于数据高效深度学习的核心集
提出了 CREST 框架,基于 coresets 实现了基于非凸优化问题的深度学习模型的高效和可扩展训练,可以通过快速选择最有价值的训练数据子集来提高学习速度,同时保持高精度。
- 针对非均匀和时变通信的 FedAvg 偏差校正
本文主要研究联邦学习中的非凸优化问题,提出了一种简单的算法 FedPBC 来解决在通信不稳定情况下 Federated Average 无法最小化全局目标函数的问题。该算法通过延迟全局模型广播来实现隐式的客户之间的消息传递,从而达到了预期的 - Shuffle SGD 总是比 SGD 更好:对任意数据顺序的 SGD 的改进分析
该论文研究了随机梯度下降算法在非凸优化问题中的迭代次数,发现采用随机 / 单扰动的随机梯度下降算法的收敛速度要快于经典的随机梯度下降算法,实验证明其具有更好的性能。
- ICML通过拓扑交换优化 NOTEARS 目标
本研究提出了一种新的双层算法,用于优化具有非凸性约束的有向无环图,并解决了此类问题的优化挑战,具有更弱的条件保证和更低的得分,并且在实验中表现优于现有方法。
- 深度神经网络的连续仿射学习
提出一种连续仿射学习模型,通过解决一系列二次 / 凸优化问题以生成适应函数的正交展开,该模型建立了平方和恒等式和 Parseval 恒等式,并证明其收敛定理。数值实验显示,其在函数近似方面明显优于传统的深度学习模型。
- 关于带有噪声的动量随机梯度下降法在机器学习中的收敛速率
本文研究了非凸优化中动量随机梯度下降 (MSGD) 算法的连续性版本,并证明了在目标函数满足 Lipschitz 连续性和 Polyak-Lojasiewicz 不等式的条件下,MSGD 算法的目标函数极限收敛指数级收敛,同时在给定摩擦参数 - Git Re-Basin: 模除置换对称的模型合并
本研究提出了三种算法,用于将一个模型的单元重新排列以与参考模型对齐,以便在权重空间中合并两个模型,实验结果表明了单一流域现象在各种模型架构和数据集中的存在,并讨论了模型宽度和训练时间与模式连通性的相关现象,同时证明了单流域理论的一个反例。
- ICML当非凸性被平衡时,针对一类 Polyak-Łojasiewicz 函数,可证明重球加速度超越二次项
该研究发展了新技术,能够分析连续两个时间点的 Hessian 变化如何影响收敛速度,从而证明了一类 Polyak-Łojasiewicz 优化问题可以通过引入 Heavy Ball dynamic 来实现证明加速。此外,通过我们的分析还表明 - 深层次风险优化的算法基础
本文介绍了近期深度学习中 X - 风险优化的算法及其基础,提出了一类通过三个特殊的非凸优化问题来优化 X - 风险的技术,并给出了一些强大的基础算法及其复杂性,以及未来的研究方向。
- SGD 中的自适应能力:无界梯度和仿射方差下的自调步长
本研究旨在研究基于观察的随机梯度的步长的变化,以最小化非凸光滑目标函数的 AdaGrad-Norm 的收敛速度,并表明 AdaGrad-Norm 在假设与最佳调优的非自适应 SGD 相同的情况下展现出与之相同的收敛速度,同时不需要任何调整参 - 高维双层神经网络中的随机梯度下降相图
本文探讨了梯度下降在高维中非凸优化领域的应用,通过对浅层网络和窄网络的研究分析了其在全局收敛和局部最小值上的不同表现,研究了随机梯度下降的高维度动态学习中学习率、时间尺度和隐藏单元数量之间的相互作用,并提供了统计物理学中基于确定性描述的 S - Adam 系列算法的新收敛分析
本研究通过对 Adam 优化器家族进行分析,提出了一种适用于包括 min-max、组合和双层优化问题的简单且通用的渐进收敛证明方法,并证明了使用随机梯度估计器的方差减少结果。
- KDDAGGLIO: 局部凸函数的全局优化
本文介绍了 AGGLIO(Accelerated Graduated Generalized LInear-Model Optimization),一种阶段性的、毕业的优化技术,它提供了针对非凸性优化问题的全局收敛保证,这些问题在全局范围内 - AAAI基于 MMD 的 Stiefel 流形优化的快速高效公平 PCA 算法
本文提出了一种公平的主成分分析方法,该方法使用最大均值差异法对不同保护类别的条件分布进行降维,并将多目标策略与数据降维技术相结合,通过在 Stiefel 流形上的非凸优化过程,优化约束条件下的主成分分析,得到较高的计算效率和分类精确性。使用 - ICMLDash: 带动态阈值的半监督学习
本文介绍一种新的半监督学习框架 - Dash,该框架使用动态阈值来选择训练示例,以保证只有与标记数据相关的伪标签示例才会用于训练模型,并从非凸优化的角度理论上证明其收敛速度。实验结果也表明该方法的有效性优于当前最先进的技术。
- 普通策略梯度的一般样本复杂性分析
本文使用最近为非凸优化分析 SGD 开发的工具,获得了 vanilla policy gradient(PG)的收敛性和样本复杂性保证。
- 分布式随机梯度跟踪算法降低方差用于非凸优化
本文提出了一种基于分布式随机算法的方差约简方法,以解决在多代理网络中进行大规模非凸有限和优化问题,提出了 GT-VR 算法,并证明了其收敛性和效率优于一些现有的一阶方法。
- 不对称低秩矩阵分解的梯度下降全局收敛性
本研究论文首次证明了初始化的随机梯度下降算法可以在多项式时间内收敛到具有对称和非对称特点的低秩矩阵分解问题的全局最小值,该证明基于新的对称化技术和定量扰动分析方法,并可以拓展到其他相关的非凸问题。
- 代理凸性:梯度下降训练的神经网络分析的统一框架
本文提出了一个统一的非凸优化框架,用于分析神经网络训练,引入了代理凸性和代理 Polyak-Lojasiewicz (PL) 不等式的概念,结合梯度下降,对神经网络训练的目标函数提供了高效的保证。通过代理凸性和代理 PL 不等式,本文进一步