针对带有极大稀疏目标的深度神经网络训练的高效精确梯度更新
本文提出了一种基于算法的方法,通过使用 loss 函数直接计算误差和梯度更新输出权重,而无需计算大维度向量,以实现高效地训练深度神经网络模型。
Jun, 2016
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入 x 是高斯分布的,目标 y 遵循多指数模型,并证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的向量 u1,...,uk 所张成的 k 维主子空间,从而建立了一个独立于 NN 宽度的一般化误差边界,并进一步证明了,使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标,其样本复杂度与 d 成线性关系,而不是通过核区域中的任何 p 次多项式的已知 d 奥米(p)样本要求,这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
Sep, 2022
该研究提出了高效的稀疏训练方法,通过引入连续性问题,将优化过程分为权重更新和结构参数更新两个步骤,前者可利用稀疏结构实现,后者通过方差减少策略梯度估计器而获得全面稀疏训练,维度之间的联系局限在两个步骤中,展示了远远超过之前方法的训练加速效果。
Nov, 2021
在大型嵌入模型应用的推动下,我们研究了带有个体梯度稀疏性的差分隐私(DP)优化问题,我们得到了经典均值估计问题的新近最优界限,但这是在稀疏数据情况下,改进了先前的算法,特别是在高维情况下。在此基础上,我们提出了几乎最优的 DP 算法和近似 DP 算法,用于具有稀疏梯度的随机凸优化问题;前者首次提供了几乎与维度无关的速率。最后,我们研究了近似 DP 优化中经验损失的稳定点近似,并得到了依赖于稀疏性而非维度的速率,除了对数因子。
Apr, 2024
使用稀疏更新替代密集更新的分布式随机梯度下降法,在保持准确性不变的情况下,能够在 MNIST 数据集中实现最高 49% 的加速和在神经机器翻译任务中实现最高 22% 的加速。
Apr, 2017
文章提出了一种名为自适应 softmax 的算法,采用字词聚类的方法来降低神经网络语言模型训练中的计算复杂度,并结合现代计算机体系结构和矩阵向量运算技术进一步提高了训练效率。实验结果表明该方法的效果稳定,能够在保证高精度的同时显著提高计算速度。
Sep, 2016
本文指出,关于促进稀疏性的更强大的贝叶斯算法具有类似于长短期记忆 (LSTM) 网络或先前设计用于序列预测的替代门控反馈网络的结构,从而导致了一种新的稀疏估计系统,当授予训练数据时,可以在其他算法失败的方案中高效地估计最优解,包括在实际方向 - 到达 (DOA) 和三维几何恢复问题中。
Jun, 2017
基于反向传播的迭代微分逼近方法使得神经网络的优化成为可能,但目前仍然计算代价高昂,尤其是在大规模训练模型时。本文提出了一种计算效率高的神经网络优化替代方案,既能降低神经网络的扩展成本,又能为低资源应用提供高效的优化。通过数学分析其梯度,我们推导了一个明确的解决方案用于简单的前馈语言模型 (LM)。该解决方案可以推广到基于正值特征训练的所有单层前馈 softmax 激活神经模型,我们通过将该解决方案应用于 MNIST 数字分类问题进行了验证。在 LM 和数字分类器的实验中,我们发现在计算上,明确的解决方案可以接近最优解,同时证明了:1) 迭代优化对明确解决方案参数的改进仅有微小影响,2) 随机初始化参数通过迭代优化逐渐趋向于明确的解决方案。我们还初步将明确的解决方案局部应用于多层网络,并讨论了随着模型复杂性增加的解决方案的计算节约。对于明确解决方案的单层和多层应用,我们强调仅通过反向传播无法达到这些最优解,即只有在应用明确解决方案后才能发现更好的最优解。最后,我们讨论了解决方案的计算节约以及它对模型可解释性的影响,并提出了为推导复杂和多层体系结构的明确解决方案的未来方向。
Nov, 2023
本文提出了基于动态稀疏训练的稀疏连接性搜索问题的开发和探索获取函数,旨在使稀疏训练达到更高的准确性和更高的稀疏度,实验结果表明,相较于目前最先进的稀疏训练方法,在多项深度学习任务中,本文所提出的方法额外具有更高的准确性。
Nov, 2022
论文研究了稀疏估计算法、神经网络层和深度网络学习在估计准确性方面的应用,展示了深度网络学习可以在稀疏字典具有连贯列时恢复最小 L0 范数表示的潜力,并应用于三维场景表面法线的实际测量问题中。
May, 2016