使用本地错误信号训练神经网络
通过平滑分析技术,我们对具有分段线性激活函数、二次损失和单输出的多层神经网络(MNN)在可微的局部极小值处的训练损失提供保证。特别地,我们证明对于一个具有一个隐藏层的MNN,几乎每个数据集和dropout-like噪声实现的每个可微局部极小值的训练误差都是零,然后将这些结果扩展到多个隐藏层的情况。我们的理论保证对训练数据几乎没有限制,并得到了数值验证。这些结果说明了为什么这些MNN的高度非凸损失可以通过局部更新(例如随机梯度下降)进行易于优化,这与经验证据相符。
May, 2016
研究了不同损失函数选择对深度神经网络及其学习动态的影响,证明了L1和L2损失函数是深度网络分类目标的合理选择,并提出两种新的损失函数作为现有损失函数的可行替代品。
Feb, 2017
本文提出通过引入本地误差和随机辅助分类器来优化深度网络中的学习机制,旨在解决反向传播算法中存在的反应延迟和与生物神经网络的学习机制的矛盾。实验证明,该方法效果优于反馈对齐学习技术,并强调了其潜在的生物学机制和在定制硬件上的应用前景。
Nov, 2017
研究了在卷积层和ReLU激活下的一层神经网络的学习问题,证明了随机初始化并使用归一化权重的梯度下降可以恢复真实参数,但存在虚假局部最小值,且该局部最小值在梯度下降的动力学中起到了重要作用。
Dec, 2017
针对单层神经网络的拟合损失函数,研究神经网络算法中局部极小值的性质,提出当神经元是严格凸函数并且代理损失函数是铰链损失函数的平滑版本时,在所有局部极小值处训练误差为零的条件。同时,通过反例表明当损失函数替换为二次损失或逻辑损失时,该结论可能不成立。
Feb, 2018
本文提出了一种新颖的全局压缩深度神经网络框架,通过使用低秩分解的方法在达到所需的整体压缩率的同时,对每层进行全面分析确定最佳的每层压缩比率,并利用等奇特展开定理和最优化算法来得到我们的解决方案。我们的实验表明,我们的方法在各种网络和数据集上优于现有的低秩压缩方法。
Jul, 2021
这篇文章介绍了一种创新的方法来训练回归MLP网络,该方法不受局部极小值的影响,通过基于训练集分布特性或更好地说是神经网络内部的图像来避免局部极小值问题,并通过一个著名的基准测试展示了算法的性能。
Aug, 2023
通过引入一种新的无反向传播的方法,本研究提出了一个基于局部误差信号的块状神经网络,可以分别优化不同的子神经网络,并通过并行计算局部误差信号来加速权重更新过程,取得了比使用端到端反向传播和其他最先进的块状学习技术更好的性能,特别是在 CIFAR-10 和 Tiny-ImageNet 数据集上。
Dec, 2023
本研究针对局部学习算法在神经计算中的复杂性和超参数设置的挑战,提出了一种新的最大更新参数化($\mu$P),用于预测编码和目标传播等局部目标的设计。通过对深层线性网络的分析,我们发现$\mu$P在无限宽度极限中展现出独特的性质,使得超参数能够在不同宽度的模型间转移,并且在特定设置下,其表现更接近于一阶梯度,从而对局部损失优化的理解和应用具有重要影响。
Nov, 2024