通过平滑分析技术,我们对具有分段线性激活函数、二次损失和单输出的多层神经网络(MNN)在可微的局部极小值处的训练损失提供保证。特别地,我们证明对于一个具有一个隐藏层的 MNN,几乎每个数据集和 dropout-like 噪声实现的每个可微局部极小值的训练误差都是零,然后将这些结果扩展到多个隐藏层的情况。我们的理论保证对训练数据几乎没有限制,并得到了数值验证。这些结果说明了为什么这些 MNN 的高度非凸损失可以通过局部更新(例如随机梯度下降)进行易于优化,这与经验证据相符。
May, 2016
本研究提出了一种新的在线 (ALternating Minimization) 方法来训练深度神经网络,同时也给出了该方法在随机设置下的理论收敛保证,并在不同体系结构和数据集上展示出具有前景的实证结果。
Jun, 2018
本文主要探讨了对于深度模型的错误表面进行特征化的兴趣,揭示在某些条件下,深度模型的局部最小值会影响模型训练的结果,需要额外的数据前提、初始化方案和 / 或模型类来支持全局最佳解的优化。
Nov, 2016
通过引入双网络的反向传播方法和将网络中的层激活视作概率分布的参数,本文提出了一种解决反向传播中锁死和权重传输问题的新方法,从而实现对大型网络的分布式高效训练。相应的实验结果表明了其在多种任务和结构上的优越表现。
May, 2023
通过添加特殊神经元,可以消除任何深度神经网络的所有次优局部极小值,并通过扰动梯度基础的必要条件对其进行分析,以及一种削弱消除局部极小值的新型故障模式。
Jan, 2019
该论文探讨了使用分层损失函数进行神经网络分类的监督训练的方法,表明可在多种图像数据集上达到最先进水平,在局部学习的情况下,使用本地误差可能是朝着更符合生物学的深度学习的一步。
该工作提出了一种新型的本地化训练算法,BackLink,它引入了模块间的反向依赖关系,采用了一定的误差传播长度限制,并在深卷积神经网络中进行了广泛的实验,表明我们的方法通过提高分类性能来改善本地培训算法。
May, 2022
通过证明,使用具有分段线性单元、单输出和二次损失的一层隐藏层的 MNN,在标准正常输入和更现实的数量的隐藏单元情况下,可以消失指数数量的不同可微区域的的局部最小值,以及通过数值演示达到的结果,发现在 CIFAR 上只有 16 个隐藏神经元时可以达到 0%的二进制分类训练误差。
Feb, 2017
机器学习中的代数学习方法,通过从训练数据中找到一个最小大小和最大自由度的代数表示来实现泛化,该方法不需要正则化或函数最小化。该方法在手写字符识别和无监督学习等问题上取得了高精度,可能为数据驱动的概念定义和大规模并行化提供有利的结合。
Mar, 2018
本研究开发了一个统计极小化框架以表征在回归中通过线性和单隐藏层神经网络模型进行的迁移学习的基本限制,并提取出源数据和目标数据的标记数以及适当的相似性概念作为算法所能实现的目标泛化误差的下限。我们的下限提供了迁移学习的益处和限制的新见解,并通过各种实验验证了我们的理论发现。
Jun, 2020