深度学习中块坐标下降的全局收敛性
本文提出了一种用于训练深度神经网络的光滑的多凸形式,该方法利用了凸分析中的近端点方法,开发了一个块协调下降(BCD)训练算法,证明了其具有全局收敛性和 R - 线性收敛速率,并在实验中展示了优于 Caffe 工具箱中所有随机梯度下降(SGD)变体的表现。
Nov, 2017
本篇论文探讨了一种近似的 BCD 方法,通过 successively 最小化一系列 f 不等式紧上界或者局部严格凸逼近来更新变量块,该方法适用于不可微或非凸问题,并能够实现收敛性的特征描述。这个结果将许多经典算法的收敛结果统一和扩展了,如 BCD 方法、DC 方法、EM 算法和交替近端最小化算法。
Sep, 2012
我们提出了一种优化单隐藏层神经网络参数的算法,其中我们导出了目标函数的分块凸差(DC)函数表示。基于后者,我们提出了一种分块坐标下降(BCD)方法,将其与定制的凸差函数算法(DCA)结合起来。我们证明了所提算法的全局收敛性。此外,我们在理论上分析了参数的收敛速度和值的收敛速度(即训练损失)。我们给出了算法收敛线性或甚至更快的条件,取决于损失函数的局部形状。我们通过数值实验验证了理论推导的正确性,并在训练损失和测试损失方面将我们的算法与最先进的基于梯度的求解器进行了比较。
Jan, 2024
本文提供了一种对于块坐标下降方法族的统一迭代复杂度分析,涵盖了流行的方法如块坐标梯度下降 (BCGD) 和块坐标近端梯度下降 (BCPG),更进一步地,对于多块非光滑凸性问题,BSUM 框架覆盖的所有算法均能够实现全局次线性迭代复杂度,而在每个块都被精确最小化的块坐标最小化问题中,本文还在无需每个块强凸性假设下建立了次线性收敛速率。此外,在只有两个变量块的情况下,特殊的 Gauss-Seidel 规则的 BSUM 算法能够加速实现 $O (1/r^2)$ 改善率。
Oct, 2013
本文主要研究随机块 - 坐标下降方法在最小化一般光滑凸函数和块可分凸函数的和时的应用,提出一种更加针对性的收敛速度和更好的迭代复杂度,同时针对无约束光滑凸函数极小化问题提出了新的随机评估序列技术并改进了现有算法的收敛速度。
May, 2013
本研究提出了一种基于 Bregman 距离的随机 Bregman(块)坐标下降法,解决了无法全局 Lipschitz 连续(部分)梯度假设的复合问题优化及收敛分析方面的瓶颈,给出了迭代收敛复杂度,并提出了加速 RBCD 方法。
Jan, 2020
该论文主要介绍了基于 Gauss-Seidel 类型的块坐标下降算法(BCD-PR)的近端正则化方法,以及提出了一种双重正则化的原始问题的对偶算法,并将其应用于 Wasserstein CP - 字典学习中,从而实现了优化问题的求解。
Jun, 2023
提出了一种新的基于块坐标下降(OBCD)的非光滑复合优化方法,该方法能够在正交约束下解决一般的非光滑复合问题,是具备收敛保证的可行方法。
Apr, 2023
通过提出变量分解算法 - greedy block coordinate descent(GBCD)-,我们将密集高斯过程回归变得实用,解决了现有方法的局限性,并将主动集选择转化为零规范约束优化问题,使用贪心方法求解,进而在实证比较中证明了 GBCD 具有全局收敛的能力并且比竞争算法更快、更准确。
Jun, 2012