深度学习中块坐标下降的全局收敛性

Mar, 2018

深度学习中块坐标下降的全局收敛性

Global Convergence of Block Coordinate Descent in Deep Learning

Jinshan Zeng, Tim Tsz-Kit Lau, Shaobo Lin, Yuan Yao

TL;DR本文介绍了一种针对深度学习中常用的两分和三分网络结构的 Block Coordinate Descent 方法，论证了它的全局收敛性和迭代收敛速度。

Abstract

deep learning has aroused extensive attention due to its great empirical success. The efficiency of the block coordinate descent (BCD) methods has been recently demonstrated in deep neural network (DNN) training. However, theoretical studies on their →

deep learning block coordinate descent method convergence properties global convergence dnn training models

发现论文，激发创造

用于训练 Tikhonov 正则化深度神经网络的收敛块坐标下降算法

本文提出了一种用于训练深度神经网络的光滑的多凸形式，该方法利用了凸分析中的近端点方法，开发了一个块协调下降（BCD）训练算法，证明了其具有全局收敛性和 R - 线性收敛速率，并在实验中展示了优于 Caffe 工具箱中所有随机梯度下降（SGD）变体的表现。

Nov, 2017

一种用于深度神经网络训练的近端块坐标下降算法

提出了一种基于块坐标下降算法的深度神经网络优化算法，并提供了全局收敛结果，数值实验证明其与基于反向传播的标准优化器竞争力强。

Mar, 2018

用于非光滑优化的分块逐步最小化方法的统一收敛分析

本篇论文探讨了一种近似的 BCD 方法，通过 successively 最小化一系列 f 不等式紧上界或者局部严格凸逼近来更新变量块，该方法适用于不可微或非凸问题，并能够实现收敛性的特征描述。这个结果将许多经典算法的收敛结果统一和扩展了，如 BCD 方法、DC 方法、EM 算法和交替近端最小化算法。

Sep, 2012

基于凸差分函数的神经网络参数优化的全局收敛算法

我们提出了一种优化单隐藏层神经网络参数的算法，其中我们导出了目标函数的分块凸差（DC）函数表示。基于后者，我们提出了一种分块坐标下降（BCD）方法，将其与定制的凸差函数算法（DCA）结合起来。我们证明了所提算法的全局收敛性。此外，我们在理论上分析了参数的收敛速度和值的收敛速度（即训练损失）。我们给出了算法收敛线性或甚至更快的条件，取决于损失函数的局部形状。我们通过数值实验验证了理论推导的正确性，并在训练损失和测试损失方面将我们的算法与最先进的基于梯度的求解器进行了比较。

Jan, 2024

块坐标下降方法的迭代复杂度分析

本文提供了一种对于块坐标下降方法族的统一迭代复杂度分析，涵盖了流行的方法如块坐标梯度下降 (BCGD) 和块坐标近端梯度下降 (BCPG)，更进一步地，对于多块非光滑凸性问题，BSUM 框架覆盖的所有算法均能够实现全局次线性迭代复杂度，而在每个块都被精确最小化的块坐标最小化问题中，本文还在无需每个块强凸性假设下建立了次线性收敛速率。此外，在只有两个变量块的情况下，特殊的 Gauss-Seidel 规则的 BSUM 算法能够加速实现 $O (1/r^2)$ 改善率。

Oct, 2013

随机块坐标下降方法的复杂性分析

本文主要研究随机块 - 坐标下降方法在最小化一般光滑凸函数和块可分凸函数的和时的应用，提出一种更加针对性的收敛速度和更好的迭代复杂度，同时针对无约束光滑凸函数极小化问题提出了新的随机评估序列技术并改进了现有算法的收敛速度。

May, 2013

非 Lipschitz 优化的随机 Bregman 坐标下降方法

本研究提出了一种基于 Bregman 距离的随机 Bregman（块）坐标下降法，解决了无法全局 Lipschitz 连续（部分）梯度假设的复合问题优化及收敛分析方面的瓶颈，给出了迭代收敛复杂度，并提出了加速 RBCD 方法。

Jan, 2020

带有近端正则的块坐标下降复杂度及其在 Wasserstein CP 字典学习中的应用

该论文主要介绍了基于 Gauss-Seidel 类型的块坐标下降算法（BCD-PR）的近端正则化方法，以及提出了一种双重正则化的原始问题的对偶算法，并将其应用于 Wasserstein CP - 字典学习中，从而实现了优化问题的求解。

Jun, 2023

关于正交约束无光滑组合优化问题的块坐标下降方法

提出了一种新的基于块坐标下降（OBCD）的非光滑复合优化方法，该方法能够在正交约束下解决一般的非光滑复合问题，是具备收敛保证的可行方法。

Apr, 2023

大规模高斯过程回归的贪婪块坐标下降

通过提出变量分解算法 - greedy block coordinate descent（GBCD）-，我们将密集高斯过程回归变得实用，解决了现有方法的局限性，并将主动集选择转化为零规范约束优化问题，使用贪心方法求解，进而在实证比较中证明了 GBCD 具有全局收敛的能力并且比竞争算法更快、更准确。

Jun, 2012