- 基于强凸性引导的超参数优化方法用于更平缓的损失函数
我们提出了一种新颖的白盒方法来进行超参数优化,通过最小化损失函数的强凸性来改善其平坦性,利用神经网络的结构推导出近似求解强凸参数的闭式方程,并随机搜索使其最小化的超参数配置,通过在 14 个分类数据集上的实验,我们展示了我们的方法在运行时间 - 基于平均二阶相似性的随机分布式优化:算法与分析
本文研究了具有 n 个客户机的有限和分布式优化问题,针对流行的 δ- 相似性条件和 μ- 强凸性,提出了 SVRS 和 AccSVRS 两种新算法,其通信复杂度分别为 O (n+√(nδ/μ) ) 和 O (n+ n^(3/4)√(δ/μ) - 平滑与强凸强凹极小 - 极大优化的首个最优算法
通过重新定义问题为最小化问题,应用特定变体的近端点算法和使用最佳算法计算不准确的近端算子,我们将最小极小化优化问题的梯度计算复杂度降至 O (sqrt (kappax*kappay)*log (1/epsilon))
- 凸凹最小化极小化优化的改进算法
该研究针对广泛应用于深度学习等领域的极小极大优化问题提出了新算法,利用加速方法获得极小极大问题的优秀渐进收敛速度和更紧密的条件数依赖性.
- 极小极大优化中的最优时期随机梯度下降方法
提出了采用 Epoch-GDA 方法解决强凸强凹(SCSC)最小最大问题的锐利分析,并且展示了 Epoch-GDA 可以实现一般 SCSC 最小最大问题的对偶间隙的最优速率 O(1 / T)。
- 一种用于凸优化的统一方差降低加速梯度方法
提出了 VAriance-Reduced Accelerated Gradient 算法来解决求解光滑凸有限和问题,该算法具有良好的收敛性能并且可以用于求解随机有限和问题。
- SAdam: 强凸函数的 Adam 变体
本文通过开发 Adam 算法的变种 SAdam, 给出了一个数据相关的 O (log T) 遗憾界,从而肯定了强凸性可以用于进一步提高性能。
- 重新审视 Polyak 步长
通过证明其简单变体可同时在强凸性、平滑性和 Lipschitz 参数的所有范围内,不需要关于这些参数的先验知识,为梯度下降算法获得接近最优的收敛速度,本文重新审视了用于解决凸优化问题的 Polyak 步长调度。
- 平滑强凸函数的随机逼近:超越 $O (1/T)$ 收敛速度
利用凸性和平滑性同时优化了随机逼近的收敛速度,并构建了高效的随机算法来达到风险界限。
- 一种精确量子化的分散梯度下降算法
研究去中心化共识优化中量化对优化带来的影响,并提出了一种基于梯度下降的算法,证明算法在标准强凸和平滑假设下可实现消失的均值解误差,并通过模拟结果验证了理论收敛速度与实际结果的紧密一致性。
- 有限轮数后,随机重洗优于随机梯度下降
本论文首次提出了证明随机梯度下降算法的 RandomShuffle 版本在 “合理” 迭代次数后,比常规的有替换版本更快收敛的非相态解决方法。同时,论文还探讨了该问题在强凸性、稀疏数据和非强凸梯度主导函数等方面的推广。
- 强凸性和偏导数 Lipschitz 连续性之间的 Fenchel 对偶
本文提供了强凸性和 Lipschitz 连续梯度之间的 Fenchel 对偶性的简单证明,并通过建立等价条件,识别了几个更一般的条件。
- 非退化函数的改进动态遗憾
本文介绍了一种通过多次查询函数梯度并减弱强凸性条件来优化在线学习器性能的方法,并引入了比路径长度更小的平方路径长度作为比较序列的新规则。
- 论忘却式一阶优化算法的迭代复杂度
考虑基于常数步长的广泛一阶优化算法,其中任何该类算法对于 L - 平滑的凸函数的迭代复杂度下界为 Ω(根 (L/ε))。
- 非强凸优化的一阶方法线性收敛
本文研究了解决光滑的非强凸约束优化问题的一些一阶方法的收敛率,提供了一些松弛的强凸条件并证明了它们对于多种一阶方法的线性收敛是足够的,最后证明了所提出的松弛强凸条件涵盖了求解线性系统、线性规划和线性约束凸问题的重要应用。
- Douglas-Rachford Splitting 和 ADMM 的线性收敛和度量选择
本文提出了关于 Douglas-Rachford 分裂算法和交替方向乘子法(ADMM)的全局线性收敛速度界限,说明了在强凸性和平滑性假设下的速率界限,并为所有可行的算法参数考虑到界限紧密性。本文讨论了如何选择算法的步长和指标来优化收敛速度上 - SAGA: 具有非强凸复合目标支持的快速增量梯度方法
介绍了一种新的优化方法 ——SAGA,它是在最近提出的一组具有快速线性收敛率的增量梯度算法:SAG、SDCA、MISO 和 SVRG 的基础上提出的。SAGA 改进了 SAG 和 SVRG 的理论,具有更好的理论收敛率,并支持在规则化器上使 - 随机梯度下降,加权抽样和随机 Kaczmarz 算法
本文主要研究了随机梯度下降法的线性收敛性,得到了更好的收敛保证,并且阐述了使用重要性采样在其他场景中进一步提高收敛速度的方法。研究基于随机梯度下降法与随机 Kaczmarz 算法之间的联系,可以将各自的研究成果相互借鉴。