针对带有极大稀疏目标的深度神经网络训练的高效精确梯度更新

Dec, 2014

针对带有极大稀疏目标的深度神经网络训练的高效精确梯度更新

Efficient Exact Gradient Update for training Deep Networks with Very Large Sparse Targets

Pascal Vincent, Alexandre de Brébisson, Xavier Bouthillier

TL;DR该论文提出了一种针对大规模高维稀疏目标训练深度神经网络的算法，可以大大提高计算效率，减少更新权重和反向传播所需的计算时间。

Abstract

An important class of problems involves training deep neural networks with sparse prediction targets of very high dimension D. These occur

deep neural networks sparse prediction targets loss function gradient update training

发现论文，激发创造

对于球形损失函数族的精确梯度更新，与输出大小无关的时间

本文提出了一种基于算法的方法，通过使用 loss 函数直接计算误差和梯度更新输出权重，而无需计算大维度向量，以实现高效地训练深度神经网络模型。

Jun, 2016

神经网络使用 SGD 高效地学习低维表示

本文研究了使用随机梯度下降（SGD）训练任意宽度的两层神经网络（NN），其中输入 x 是高斯分布的，目标 y 遵循多指数模型，并证明了当基于 SGD 和权重衰减进行训练时，NN 的第一层权重将收敛于真实模型的向量 u1，...，uk 所张成的 k 维主子空间，从而建立了一个独立于 NN 宽度的一般化误差边界，并进一步证明了，使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标，其样本复杂度与 d 成线性关系，而不是通过核区域中的任何 p 次多项式的已知 d 奥米（p）样本要求，这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。

Sep, 2022

前向和后向传播稀疏化提高神经网络训练效率

该研究提出了高效的稀疏训练方法，通过引入连续性问题，将优化过程分为权重更新和结构参数更新两个步骤，前者可利用稀疏结构实现，后者通过方差减少策略梯度估计器而获得全面稀疏训练，维度之间的联系局限在两个步骤中，展示了远远超过之前方法的训练加速效果。

Nov, 2021

稀疏梯度的差分隐私优化

在大型嵌入模型应用的推动下，我们研究了带有个体梯度稀疏性的差分隐私（DP）优化问题，我们得到了经典均值估计问题的新近最优界限，但这是在稀疏数据情况下，改进了先前的算法，特别是在高维情况下。在此基础上，我们提出了几乎最优的 DP 算法和近似 DP 算法，用于具有稀疏梯度的随机凸优化问题；前者首次提供了几乎与维度无关的速率。最后，我们研究了近似 DP 优化中经验损失的稳定点近似，并得到了依赖于稀疏性而非维度的速率，除了对数因子。

Apr, 2024

分布式梯度下降的稀疏通讯

使用稀疏更新替代密集更新的分布式随机梯度下降法，在保持准确性不变的情况下，能够在 MNIST 数据集中实现最高 49% 的加速和在神经机器翻译任务中实现最高 22% 的加速。

Apr, 2017

GPU 上高效的 softmax 近似算法

文章提出了一种名为自适应 softmax 的算法，采用字词聚类的方法来降低神经网络语言模型训练中的计算复杂度，并结合现代计算机体系结构和矩阵向量运算技术进一步提高了训练效率。实验结果表明该方法的效果稳定，能够在保证高精度的同时显著提高计算速度。

Sep, 2016

从贝叶斯稀疏到门控循环神经网络

本文指出，关于促进稀疏性的更强大的贝叶斯算法具有类似于长短期记忆 (LSTM) 网络或先前设计用于序列预测的替代门控反馈网络的结构，从而导致了一种新的稀疏估计系统，当授予训练数据时，可以在其他算法失败的方案中高效地估计最优解，包括在实际方向 - 到达 (DOA) 和三维几何恢复问题中。

Jun, 2017

显式优化神经网络减少反向传播需求并发现更好的极值

基于反向传播的迭代微分逼近方法使得神经网络的优化成为可能，但目前仍然计算代价高昂，尤其是在大规模训练模型时。本文提出了一种计算效率高的神经网络优化替代方案，既能降低神经网络的扩展成本，又能为低资源应用提供高效的优化。通过数学分析其梯度，我们推导了一个明确的解决方案用于简单的前馈语言模型 (LM)。该解决方案可以推广到基于正值特征训练的所有单层前馈 softmax 激活神经模型，我们通过将该解决方案应用于 MNIST 数字分类问题进行了验证。在 LM 和数字分类器的实验中，我们发现在计算上，明确的解决方案可以接近最优解，同时证明了：1) 迭代优化对明确解决方案参数的改进仅有微小影响，2) 随机初始化参数通过迭代优化逐渐趋向于明确的解决方案。我们还初步将明确的解决方案局部应用于多层网络，并讨论了随着模型复杂性增加的解决方案的计算节约。对于明确解决方案的单层和多层应用，我们强调仅通过反向传播无法达到这些最优解，即只有在应用明确解决方案后才能发现更好的最优解。最后，我们讨论了解决方案的计算节约以及它对模型可解释性的影响，并提出了为推导复杂和多层体系结构的明确解决方案的未来方向。

Nov, 2023

更多探索的动态稀疏训练

本文提出了基于动态稀疏训练的稀疏连接性搜索问题的开发和探索获取函数，旨在使稀疏训练达到更高的准确性和更高的稀疏度，实验结果表明，相较于目前最先进的稀疏训练方法，在多项深度学习任务中，本文所提出的方法额外具有更高的准确性。

Nov, 2022

深度网络中的最大稀疏性？

论文研究了稀疏估计算法、神经网络层和深度网络学习在估计准确性方面的应用，展示了深度网络学习可以在稀疏字典具有连贯列时恢复最小 L0 范数表示的潜力，并应用于三维场景表面法线的实际测量问题中。

May, 2016