大型神经网络系统设计的渐进式学习

Oct, 2017

大型神经网络系统设计的渐进式学习

Progressive Learning for Systematic Design of Large Neural Networks

Saikat Chatterjee, Alireza M. Javid, Mostafa Sadeghi, Partha P. Mitra, Mikael Skoglund

TL;DR采用progression property算法，利用非线性函数和正则化参数进行系统设计，采用随机矩阵来降低学习参数，多项分类和回归实验表明该设计网络具有较强的泛化能力。

Abstract

We develop an algorithm for systematic design of a large artificial neural network using a progression property. We find that some non-linear functions, such as the →

发现论文，激发创造

过度参数的浅层神经网络优化空间的理论洞见

研究浅层神经网络在过参数化情况下，如何使用二次激活函数进行训练并找到全局最优解，结果表明此方法适用于具有任意输入/输出对的任何训练数据，并可使用各种本地搜索启发式方法高效地找到全局最优解。同时，对於差分激活函数，我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解，它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。

Jul, 2017

浅层线性神经网络的全局优化几何

本文研究了浅层线性神经网络的平方误差损失景观。研究表明，对于相应的优化问题，其具有良好的几何性质，没有虚假局部极值，每个鞍点的 Hessian 矩阵至少有一个负特征值。这意味着在每个鞍点处，都有一个负的曲率方向可以用来优化目标函数值，因此很多局部搜索算法，如梯度下降，可以证明具有全局收敛性。

May, 2018

关于初始大学习率在神经网络训练中正则化作用的解释

通过大学习率SGD与Annealing方案推出二层神经网络；结果表明，相比小学习率模型，它更好地推广了不容易泛化的模式，并通过实验演示使用CIFAR-10图像说明了该概念。

Jul, 2019

神经网络是凸正则化器：两层神经网络的精确多项式时间凸优化公式

本文中，我们利用半无限对偶及最小规范化，将使用修正线性单元的两层神经网络的训练准确表述为单一凸程序，其变量数量与训练样本数量和隐藏层神经元数量呈多项式关系，并证明使用标准权重衰减进行修正线性单元网络训练的等效于带块$l_1$惩罚的凸模型。此外，我们还证明了某些标准卷积线性网络等效于半定程序，可以在多项式大小的离散傅里叶特征空间中简化为带$l_1$正则化的线性模型。

Feb, 2020

神经网络优化和泛化

论文旨在通过提出基于结构的一阶优化算法和网络集合与个体网络之间的一种新对应关系，发展人工神经网络的学习权优化和泛化理论基础，进而在具有远远更多参数的网络中探索正则化的作用。

Oct, 2022

通过激活函数发现和自动权重初始化优化神经网络

该论文介绍了发现更强大的激活函数和建立更稳健的神经网络权重初始化的技术，改进了AutoML的性能，提供了神经网络优化的新视角，使自动机器学习有了更进一步的发展。

Apr, 2023

关于超参数神经网络理论与实践之间的脱节

通过对无限宽度极限进行实证研究，我们的结果表明：无限宽度极限理论不适用于实际的优化、不确定性量化和持续学习问题，进而对于无限宽度极限的实际相关性提出了质疑。

Sep, 2023

通过谱神经网络和非线性矩阵感知实现隐式正则化

通过对带有非线性激活函数的神经网络在矩阵感知问题中的隐性正则化现象的研究，我们引入了一种名为“光谱神经网络（SNN）”的网络架构，该架构在矩阵学习问题上具有更好的可解释性，通过数学保证和实证研究验证了其有效性。我们相信SNN架构在广泛的矩阵学习场景中具有潜在的适用性。

Feb, 2024

自适应类别出现训练：通过渐进目标演变提升神经网络的稳定性和泛化能力

本研究解决了传统神经网络分类训练中静态目标输出造成的优化不稳定和非线性处理困难的问题。我们提出了一种新颖的训练方法，通过在训练过程中逐步演变目标输出，帮助网络更平滑地适应分类任务的复杂性，进而降低过拟合风险，提升泛化能力。实验结果显示该方法在高复杂性和噪声数据场景下，实现了更快的收敛速度和更好的准确性，具有显著的应用潜力。

Sep, 2024

自适应类别出现训练：通过渐进目标演变增强神经网络的稳定性和泛化能力

本研究针对传统神经网络分类训练中静态目标输出导致的不稳定性和泛化困难提出了新的解决方案。通过渐进式演变目标输出的方法，神经网络能够更平滑地适应复杂任务，显著降低过拟合风险并提高泛化能力。实验结果表明，该方法在处理高数据复杂性和噪声时，收敛速度更快、准确度更高，开辟了神经网络训练的新方向。

Sep, 2024