基于凸差分函数的神经网络参数优化的全局收敛算法

Jan, 2024

基于凸差分函数的神经网络参数优化的全局收敛算法

A Globally Convergent Algorithm for Neural Network Parameter Optimization Based on Difference-of-Convex Functions

Daniel Tschernutter, Mathias Kraus, Stefan Feuerriegel

TL;DR我们提出了一种优化单隐藏层神经网络参数的算法，其中我们导出了目标函数的分块凸差（DC）函数表示。基于后者，我们提出了一种分块坐标下降（BCD）方法，将其与定制的凸差函数算法（DCA）结合起来。我们证明了所提算法的全局收敛性。此外，我们在理论上分析了参数的收敛速度和值的收敛速度（即训练损失）。我们给出了算法收敛线性或甚至更快的条件，取决于损失函数的局部形状。我们通过数值实验验证了理论推导的正确性，并在训练损失和测试损失方面将我们的算法与最先进的基于梯度的求解器进行了比较。

Abstract

We propose an algorithm for optimizing the parameters of single hidden layer neural networks. Specifically, we derive a blockwise difference-of-convex (DC) functions representation of the objective function. Base

optimization neural networks parameters convergence rate gradient-based solvers

发现论文，激发创造

用于训练 Tikhonov 正则化深度神经网络的收敛块坐标下降算法

本文提出了一种用于训练深度神经网络的光滑的多凸形式，该方法利用了凸分析中的近端点方法，开发了一个块协调下降（BCD）训练算法，证明了其具有全局收敛性和 R - 线性收敛速率，并在实验中展示了优于 Caffe 工具箱中所有随机梯度下降（SGD）变体的表现。

Nov, 2017

深度学习中块坐标下降的全局收敛性

本文介绍了一种针对深度学习中常用的两分和三分网络结构的 Block Coordinate Descent 方法，论证了它的全局收敛性和迭代收敛速度。

Mar, 2018

一种用于深度神经网络训练的近端块坐标下降算法

提出了一种基于块坐标下降算法的深度神经网络优化算法，并提供了全局收敛结果，数值实验证明其与基于反向传播的标准优化器竞争力强。

Mar, 2018

一种带外推的近端凸差分算法

本论文考虑了一类差分凸（DC）优化问题，其中目标是有界的级别，是光滑的凸函数与利普希茨梯度，一个适当的闭凸函数和一个连续的凹函数的总和。针对这种问题，本论文提出了一种带外推的 DC 算法，通过在一般情况下选择外推参数来加速算法并分析其全局收敛性和收敛速度。数值实验表明，该算法通常优于现有算法。

Dec, 2016

用于非光滑优化的分块逐步最小化方法的统一收敛分析

本篇论文探讨了一种近似的 BCD 方法，通过 successively 最小化一系列 f 不等式紧上界或者局部严格凸逼近来更新变量块，该方法适用于不可微或非凸问题，并能够实现收敛性的特征描述。这个结果将许多经典算法的收敛结果统一和扩展了，如 BCD 方法、DC 方法、EM 算法和交替近端最小化算法。

Sep, 2012

分段线性回归与凸函数差分

本文介绍了一种新的分段线性回归方法，利用凸函数差的拟合数据，通过分段凸函数的估计来近似数据。方法可以通过二次规划高效实现并在现实世界数据集上验证了它的可行性和性能。

Jul, 2020

基于块坐标更新的非凸优化全局收敛算法

提出了一种基于 prox-linear surrogate 的原则的优化算法，证明了其全迭代序列收敛于关键点并具有较快的收敛速度，并将其应用于非凸正则化线性回归和非负矩阵分解等问题。

Oct, 2014

深度线性神经网络梯度下降的收敛分析

本文研究在白化数据上，通过梯度下降来训练深度线性神经网络收敛到全局最优点的速度。当隐藏层数的维度不小于输入输出维度的最小值，并且初始化的权重矩阵大致平衡且初始损失小于任何秩缺失解时，可保证线性收敛。此外，在输出维度为 1 的情况下，即标量回归，这些条件是满足的，并且在随机初始化方案下具有恒定的概率达到全局最优解。

Oct, 2018

受约束稀疏优化的高效 DC 算法

本文提出使用新的 DC 形式表示 $\ell_0$ 约束，以便 Proximal DC 算法可以将其子问题减少到对凸集的投影运算；并通过使用 Nesterov 的加速技术，提出了加速 PDCA 算法以实现最优收敛率，并在数值实验中发挥良好的效果。

Jan, 2017

通过位移凸性分析两层神经网络

使用线性组合的神经元对凸紧致区域上的凹函数进行拟合，将所得的经验风险最小化问题收敛到概率分布空间中的 Wasserstein 渐进流（Wasserstein gradient flow），且在 bump 宽度趋近于 0 时，具有特殊的位移凸性（displacement convexity），由于此渐进理论能够描述中等值的行为，因此在对风险最小化和对宽度数量的理解方面仍存在着挑战。

Jan, 2019