边缘计算下的局部梯度学习
本研究提出了一种基于 Scaled Gradient Projection 方法的神经网络演化学习算法,通过横跨重要梯度空间的基向量缩放梯度来避免老任务信息的灾难性遗忘,优化新学习表现,实验证明其在各种任务中性能均优于目前最先进的方法。
Feb, 2023
本文研究了如何在训练多层神经网络时,通过采用类局部搜索方法(如随机梯度下降)避免陷入不良局部最小值,在给定非凸非光滑结构的情况下,它们如何适应随机标签;研究了在神经网络中如何使用 ReLU 激活函数避免指数梯度爆炸或消失;通过构建扰动理论,该理论可用于分析 ReLU 激活的多层网络的一阶数学逼近。
Oct, 2018
本文提出了可训练的投影梯度方法,自动学习每层的约束条件以进行精细调整的正则化,通过维护一组投影半径并通过权重投影加强它们,同时使用双层优化自动学习最佳投影半径组合,提高针对发散数据的鲁棒性能,代码可以在 github 上找到。
Mar, 2023
本研究中,我们分析了一种叫做目标传播(TP)的替代反向传播(BP)的方法,从数学优化的角度进行了研究,并发现了它的基本限制。我们提出了一个创新性的重构损失来改善反馈权重训练,并通过允许直接反馈连接从输出到每个隐藏层来引入架构灵活性。实验结果表明,与差分目标传播(DTP)相比,性能得到了显著提高,并且前向权重更新与损失梯度的对准得到了改善。
Jun, 2020
本文提出了 Scalable and Practical Natural Gradient Descent(SP-NGD)算法,一种能够解决大规模深度神经网络训练中 mini-batch size 增加导致泛化能力下降的问题,且能够快速收敛并达到类似一阶优化方法的泛化性能,同时可进行大规模分布式训练。实验结果表明,使用 SP-NGD 算法进行 ImageNet 数据集上的 ResNet-50 模型训练,能够在 5.5 分钟内,使用 32768 的 mini-batch size 和 1024 个 GPU,获得 75.4% 的 top-1 验证精度;且在 873 个步骤内,即使使用极大的 mini-batch size=131072,也能够达到 74.9% 的准确率。
Feb, 2020
该论文介绍了一种名为 desire backpropagation 的方法,它利用 STDP 的权重更新,实现了全局误差最小化和分类准确率的提高;同时,该方法具有 STDP 的神经动力学和计算效率,是一种基于脉冲的监督学习规则。作者使用 desire backpropagation 对 MNIST 和 Fashion-MNIST 图像进行了分类,实验效果良好。
Nov, 2022
我们提出了一种新颖的适用于量子硬件上训练二进制神经网络(BNNs)的逐层随机优化器 QP-SBGD。通过在实践中解决二进制神经网络优化器的挑战,我们展示了该更新规则的收敛性,并介绍了在量子计算中如何有效执行映射和投影操作。此外,该方法逐层实现,适用于在资源有限的量子硬件上训练更大的网络。通过广泛评估,我们展示了 QP-SBGD 在优化 Rosenbrock 函数、训练 BNNs 以及二进制图神经网络方面的优越性。
Oct, 2023
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入 x 是高斯分布的,目标 y 遵循多指数模型,并证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的向量 u1,...,uk 所张成的 k 维主子空间,从而建立了一个独立于 NN 宽度的一般化误差边界,并进一步证明了,使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标,其样本复杂度与 d 成线性关系,而不是通过核区域中的任何 p 次多项式的已知 d 奥米(p)样本要求,这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
Sep, 2022