meProp: 稀疏化反向传播，加速深度学习，降低过拟合

ICMLJun, 2017

meProp: Sparsified Back Propagation for Accelerated Deep Learning with Reduced Overfitting

Xu Sun, Xuancheng Ren, Shuming Ma, Houfeng Wang

TL;DR通过保留权重矩阵的前 k 个元素并实现前向传播和反向传播来减少计算成本，该方法可以提高神经网络的学习效率并改善其准确性。

Abstract

We propose a simple yet effective technique for neural network learning. The forward propagation is computed as usual. In back propagation

发现论文，激发创造

该研究提出了一种基于梯度稀疏化和模型简化的技术来降低神经网络的训练和推断计算开销，并且在不降低模型准确率的情况下，实现了对模型的自适应简化，具有很高的应用价值。

Nov, 2017

该研究提出了一种有效的计算方法，通过对全梯度的精简计算以及对梯度进行稀疏选择，来提高卷积神经网络中反向传播的计算效率，实验结果表明只有 5% 的梯度需要上传就可以达到原始 CNN 的效果甚至更好。

Sep, 2017

该研究提出了高效的稀疏训练方法，通过引入连续性问题，将优化过程分为权重更新和结构参数更新两个步骤，前者可利用稀疏结构实现，后者通过方差减少策略梯度估计器而获得全面稀疏训练，维度之间的联系局限在两个步骤中，展示了远远超过之前方法的训练加速效果。

Nov, 2021

使用 TinyProp 方法，在嵌入式设备上训练深度神经网络，可以显著减少计算负载和加快训练速度，同时减少了精度损失。

Aug, 2023

本文介绍了 Powerpropagation 方法，它是一种针对神经网络权重参数化的方法，使用梯度下降时可使权重更新呈现 “富者越富” 的动态，从而产生稀疏模型，在模型性能相似的情况下，分布在零点处的密度提高，使得更多参数可被安全地剪枝，并在两种不同的环境下都表现出优越性。

Oct, 2021

提出了一种新的算法 ProxProp，它通过隐式步骤而不是显式步骤更新神经网络训练期间的网络参数，该算法从后向传播算法的一般观点出发设计，将预测误差的反向传播与序列梯度下降步骤等效对应到二次惩罚能量上，具有下降方向的参数空间和与常见的一阶优化器 Adam 等相结合的优点。

Jun, 2017

通过修剪更小的梯度和考虑激活梯度的统计分布，我们提出了一种方法来加速 CNN 训练，这将不会影响准确率。

Aug, 2019

该研究提出了一种将随机矩阵乘法用于梯度反向传播的方法，并证明该方法可以通过降低所需内存容量，从而更加有效地处理神经网络中的线性层。通过在语义理解任务中对 RoBERTa 模型进行测试，结果表明，该方法即使降低了测试准确度，但仍能实现显著的内存消耗优化。

Jan, 2022

介绍了 Selective-Backprop 技术，该技术可以通过在每次迭代中优先处理损失较大的示例来加速深度神经网络训练，通过在多个现代图像模型上的评估表明，相比标准 SGD 和最先进的重要性采样方法，Selective-Backprop 可以以快至多达 3.5 倍的速度收敛到目标误差率。

Oct, 2019

提出了一种基于哈希的新技术，通过只处理少量的节点来显著降低训练和测试深度神经网络的计算成本，该算法只使用了原始模型总乘法数的 5％，同时保持平均精度在 1％以内，其更新始终是稀疏的，使得算法非常适合异步和并行训练，端到端实验展示了该算法的可扩展性和可持续性。

Feb, 2016