MinBackProp -- 通过极简求解器反向传播
本研究提出了一种新的在线 (ALternating Minimization) 方法来训练深度神经网络,同时也给出了该方法在随机设置下的理论收敛保证,并在不同体系结构和数据集上展示出具有前景的实证结果。
Jun, 2018
基于反向传播的迭代微分逼近方法使得神经网络的优化成为可能,但目前仍然计算代价高昂,尤其是在大规模训练模型时。本文提出了一种计算效率高的神经网络优化替代方案,既能降低神经网络的扩展成本,又能为低资源应用提供高效的优化。通过数学分析其梯度,我们推导了一个明确的解决方案用于简单的前馈语言模型 (LM)。该解决方案可以推广到基于正值特征训练的所有单层前馈 softmax 激活神经模型,我们通过将该解决方案应用于 MNIST 数字分类问题进行了验证。在 LM 和数字分类器的实验中,我们发现在计算上,明确的解决方案可以接近最优解,同时证明了:1) 迭代优化对明确解决方案参数的改进仅有微小影响,2) 随机初始化参数通过迭代优化逐渐趋向于明确的解决方案。我们还初步将明确的解决方案局部应用于多层网络,并讨论了随着模型复杂性增加的解决方案的计算节约。对于明确解决方案的单层和多层应用,我们强调仅通过反向传播无法达到这些最优解,即只有在应用明确解决方案后才能发现更好的最优解。最后,我们讨论了解决方案的计算节约以及它对模型可解释性的影响,并提出了为推导复杂和多层体系结构的明确解决方案的未来方向。
Nov, 2023
本文提出 ReinMax 方法,通过集成 Heun's Method 来解决离散潜变量生成参数的梯度近似问题,该方法在结构化输出预测和无监督生成建模任务中均获得了比现有技术更好的结果,包括 ST 和 ST Gumbel-Softmax。
Apr, 2023
该研究提出了一种基于梯度稀疏化和模型简化的技术来降低神经网络的训练和推断计算开销,并且在不降低模型准确率的情况下,实现了对模型的自适应简化,具有很高的应用价值。
Nov, 2017
本文利用深度前馈人工神经网络近似求解复杂几何下的偏微分方程,并演示了如何修改反向传播算法来计算网络输出对空间变量的偏导数。此方法基于一种假设解法,只需要前馈神经网络和梯度优化方法,如梯度下降或拟牛顿方法,可以作为网格法无法使用时的有效替代方案。此外,本文还阐述了深度相比于浅度神经网络的优势及其他收敛增强技术的设想。
Nov, 2017
提出了一种新的算法 ProxProp,它通过隐式步骤而不是显式步骤更新神经网络训练期间的网络参数,该算法从后向传播算法的一般观点出发设计,将预测误差的反向传播与序列梯度下降步骤等效对应到二次惩罚能量上,具有下降方向的参数空间和与常见的一阶优化器 Adam 等相结合的优点。
Jun, 2017
本文提出了一种高度可扩展的策略,用于从现有的科学计算中的数值离散化来开发免网格神经符号偏微分方程求解器。该策略可用于有效地训练神经网络代理模型,以保留最先进数值求解器的精度和收敛特性,基于在一组随机配置点上使离散化的微分系统残差最小化来进行神经启动。
Oct, 2022
该论文提出了一种基于梯度下降与降噪相结合的噪声重建方法,可以高精度地重建电子显微学的层析成像问题,结果表明相对于传统方法和更复杂的扩散方法,该方法具有更高的精度和更快的计算速度。
Jul, 2023
该研究提出了一种有效的计算方法,通过对全梯度的精简计算以及对梯度进行稀疏选择,来提高卷积神经网络中反向传播的计算效率,实验结果表明只有 5% 的梯度需要上传就可以达到原始 CNN 的效果甚至更好。
Sep, 2017
本文提出一种新的自动求导方法 —— 一步法微分(Jacobian-free backpropagation),其性能可与隐式微分方法相媲美,并为快速算法(如超线性优化方法)提供了解决方案。其中使用特定的例子(如牛顿法和梯度下降法)对其进行全面的理论近似分析,并揭示了其在双层优化中的应用。通过多个数值示例,证明了这种一步估计器的正确性。
May, 2023