边缘计算下的局部梯度学习

Aug, 2022

Learning with Local Gradients at the Edge

Michael Lomnitz, Zachary Daniels, David Zhang, Michael Piacentino

TL;DR提出了一种名为 tpSGD 的优化算法，该算法可以在边缘设备上进行学习，并且收敛速度快，具有低内存占用，并且可以训练任意的损失函数和反向传播神经网络，避免了梯度保留的需求，实现了内存优化。实验结果表明，该方法相对于其他梯度自由算法具有更好的性能表现。

Abstract

To enable learning on edge devices with fast convergence and low memory, we present a novel backpropagation-free optimization algorithm dubbed Target Projection Stochastic Gradient Descent (→

tpsgd optimization algorithm neural networks memory optimization edge devices

发现论文，激发创造

在低维随机空间中提升神经网络训练

通过应用随机投影子空间和多个独立的随机投影，重新绘制了随机子空间优化的方式，以提高大规模深度神经网络的优化效率。

Nov, 2020

利用缩放梯度投影进行连续学习

本研究提出了一种基于 Scaled Gradient Projection 方法的神经网络演化学习算法，通过横跨重要梯度空间的基向量缩放梯度来避免老任务信息的灾难性遗忘，优化新学习表现，实验证明其在各种任务中性能均优于目前最先进的方法。

Feb, 2023

关于训练循环神经网络的收敛速率

本文研究了如何在训练多层神经网络时，通过采用类局部搜索方法（如随机梯度下降）避免陷入不良局部最小值，在给定非凸非光滑结构的情况下，它们如何适应随机标签；研究了在神经网络中如何使用 ReLU 激活函数避免指数梯度爆炸或消失；通过构建扰动理论，该理论可用于分析 ReLU 激活的多层网络的一阶数学逼近。

Oct, 2018

鲁棒微调的可训练投影梯度方法

本文提出了可训练的投影梯度方法，自动学习每层的约束条件以进行精细调整的正则化，通过维护一组投影半径并通过权重投影加强它们，同时使用双层优化自动学习最佳投影半径组合，提高针对发散数据的鲁棒性能，代码可以在 github 上找到。

Mar, 2023

目标传播的理论框架

本研究中，我们分析了一种叫做目标传播（TP）的替代反向传播（BP）的方法，从数学优化的角度进行了研究，并发现了它的基本限制。我们提出了一个创新性的重构损失来改善反馈权重训练，并通过允许直接反馈连接从输出到每个隐藏层来引入架构灵活性。实验结果表明，与差分目标传播（DTP）相比，性能得到了显著提高，并且前向权重更新与损失梯度的对准得到了改善。

Jun, 2020

大规模深度学习的可伸缩实用自然梯度

本文提出了 Scalable and Practical Natural Gradient Descent（SP-NGD）算法，一种能够解决大规模深度神经网络训练中 mini-batch size 增加导致泛化能力下降的问题，且能够快速收敛并达到类似一阶优化方法的泛化性能，同时可进行大规模分布式训练。实验结果表明，使用 SP-NGD 算法进行 ImageNet 数据集上的 ResNet-50 模型训练，能够在 5.5 分钟内，使用 32768 的 mini-batch size 和 1024 个 GPU，获得 75.4% 的 top-1 验证精度；且在 873 个步骤内，即使使用极大的 mini-batch size=131072，也能够达到 74.9% 的准确率。

Feb, 2020

Desire Backpropagation: 基于时序相关塑性的多层脉冲神经网络的轻量级训练算法

该论文介绍了一种名为 desire backpropagation 的方法，它利用 STDP 的权重更新，实现了全局误差最小化和分类准确率的提高；同时，该方法具有 STDP 的神经动力学和计算效率，是一种基于脉冲的监督学习规则。作者使用 desire backpropagation 对 MNIST 和 Fashion-MNIST 图像进行了分类，实验效果良好。

Nov, 2022

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018

使用量子焙烧二元梯度的预测随机梯度下降

我们提出了一种新颖的适用于量子硬件上训练二进制神经网络（BNNs）的逐层随机优化器 QP-SBGD。通过在实践中解决二进制神经网络优化器的挑战，我们展示了该更新规则的收敛性，并介绍了在量子计算中如何有效执行映射和投影操作。此外，该方法逐层实现，适用于在资源有限的量子硬件上训练更大的网络。通过广泛评估，我们展示了 QP-SBGD 在优化 Rosenbrock 函数、训练 BNNs 以及二进制图神经网络方面的优越性。

Oct, 2023

神经网络使用 SGD 高效地学习低维表示

本文研究了使用随机梯度下降（SGD）训练任意宽度的两层神经网络（NN），其中输入 x 是高斯分布的，目标 y 遵循多指数模型，并证明了当基于 SGD 和权重衰减进行训练时，NN 的第一层权重将收敛于真实模型的向量 u1，...，uk 所张成的 k 维主子空间，从而建立了一个独立于 NN 宽度的一般化误差边界，并进一步证明了，使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标，其样本复杂度与 d 成线性关系，而不是通过核区域中的任何 p 次多项式的已知 d 奥米（p）样本要求，这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。

Sep, 2022