对数和指数神经网络和多项式模型在凸性与对数 - 对数凸性数据中的应用
本文介绍了一种基于指数域的分布的凸组合的对数划分函数的新的上界类型,适用于任何无向图模型,特别是树形结构分布的凸组合。该方法有唯一全局最小值,可以用于原模型的边际估计。此方法与更高的 treewidth 的结构相关联,从而与更高级的近似方法相关。
Dec, 2012
本文研究了基于 ReLU 激活函数的两层神经网络的凸优化及其群 lasso 正则化和加速近端梯度算法,该方法在 MNIST 和 CIFAR-10 数据集的图像分类方面表现良好。
Feb, 2022
该文研究了使用随机梯度下降方法学习的大型过度参数化模型的收敛速度,并证明了当损失函数为凸函数或满足 Polyak-Lojasiewicz 条件的广泛非凸函数类时,常数步长下 SGD 可以实现指数收敛。
Nov, 2018
本文中,我们利用半无限对偶及最小规范化,将使用修正线性单元的两层神经网络的训练准确表述为单一凸程序,其变量数量与训练样本数量和隐藏层神经元数量呈多项式关系,并证明使用标准权重衰减进行修正线性单元网络训练的等效于带块 $l_1$ 惩罚的凸模型。此外,我们还证明了某些标准卷积线性网络等效于半定程序,可以在多项式大小的离散傅里叶特征空间中简化为带 $l_1$ 正则化的线性模型。
Feb, 2020
本研究提出了一种基于软正逆唯函数的回归模型,采用卷积、堆叠或组合两种操作来构建灵活的非线性预测分布,通过 Gamma 过程来支持无限叠加的卷积,采用 Gibbs sampling 进行贝叶斯推断来解决高度复杂的非线性预测分布问题,并在比较少的计算量下达到与核支持向量机相当的分类准确度。
Aug, 2016
通过分析随机梯度下降算法在 Frobenius 范数正则化的 $logistic$ 损失函数上的最新进展,本文首次证明了对于任意数据和具有适当平滑和有界激活函数(如 $sigmoid$ 和 $tanh$)的门数量的 $2$ 层神经网络,SGD 能收敛到适当正则化的全局最小值;同时证明了连续时间 SGD 的指数快速收敛性,也适用于平滑的无界激活函数(如 $SoftPlus$)。
Sep, 2023
本文扩展了经典的凸优化理论,以最小化被称为总和对数凹函数的负对数的函数。我们展示了这些函数一般不是凸函数,但仍满足广义凸性不等式,揭示了某个被称为交叉梯度的向量的重要性,该向量一般与通常的梯度不同。因此,我们提出了反方向移动交叉梯度的交叉梯度下降算法,并进行了收敛性分析。作为我们总和对数凹框架的应用,我们引入了所谓的棋盘回归方法,依赖于总和对数凹函数。该分类器扩展了(多类)逻辑回归到非线性可分问题,因为它能够利用任意给定的超平面在特征空间上镶嵌,创建了一个类似棋盘的决策区域模式。
Sep, 2023
本研究提出了一种利用高斯噪声从任何光滑单调激活函数创建随机单元的拉普拉斯近似,研究了该随机近似在训练一类与 Bregman 散度密切相关的 Restriced Boltzmann Machines 表现良好。我们称此类为指数族 RBM(Exp-RBM),该方法相比对比散度可以使用新颖的随机单元学习到有效的特征表示。
Jan, 2016
这篇论文描述了两层向量输出 ReLU 神经网络训练问题的凸半无限对偶问题,利用它可以找到全局最优解,而神经网络隐式地尝试通过半非负矩阵分解解决共正程序。
Dec, 2020
本文研究了采用权重衰减正则化的两层 ReLU 网络与其凸松弛之间的最优性差距,揭示了在随机训练数据情况下原问题与其松弛之间相对最优性差距可以通过 O (√log n) 的因子进行界定,且应用简单的算法可在多项式时间内解决原非凸问题,此外,在合理假设下,随机初始化参数的局部梯度方法几乎必定收敛于训练损失较低点,此结果相对现有结果而言具有指数级改进,并对解释局部梯度方法为何行之有效提供了新的见解。
Feb, 2024