本文提出了一种降低神经网络训练成本的框架,其中使用各种技术,包括基于 ReLU 的稀疏化器、低秩数据结构、矩形矩阵乘法、张量草图技术和预处理,实现每次迭代的真正次二次成本。
Dec, 2021
本文提供了一种改进的分析方法来探究(随机)梯度下降训练深度神经网络的全局收敛,该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小,包括更紧密的梯度下限和更清晰的算法轨迹路径描述。
Jun, 2019
该论文提出了一种基于随机线性代数的改进的二阶优化算法,重新解构了高斯牛顿迭代,使用快速 Johnson-Lindenstrauss 变换进行预处理,并使用一阶共轭梯度法得到足够好的近似解来训练 (moderately overparametrized) ReLU 网络,并且取得了快速训练的效果。
Jun, 2020
提出一种系统性方法来减少深度神经网络训练的内存消耗,通过算法设计,在每个小批量仅需要一个额外正向传播的计算成本的情况下,以 O(sqrt(n))的内存成本训练 n 层网络,使用计算图分析进行自动原地操作和内存共享优化,可以在更少的计算成本下实现更多的内存节约效果。
Apr, 2016
本篇论文主要关注于了解公共云中深度神经网络(DNN)训练的数据预处理流程。我们运行实验来测试使用原始数据或记录文件两种主要数据预处理方法所带来的性能影响。初步结果表明,即使使用 NVIDIA DALI 这种高度优化的数据预处理库,数据预处理仍然是明显的瓶颈。其次,我们确定了潜在的原因,采用了多种优化方法,并介绍了它们的优缺点。希望本研究可以为 “数据存储和加载管道” 与 “训练框架” 的新协同设计以及它们之间的灵活资源配置提供参考,使资源得到充分利用并提高性能。
Apr, 2023
该论文介绍了一种预处理 DNN 以大大简化优化问题的方法,以提高 DNN 在安全和业务关键型应用程序中的鲁棒性,并通过实验证明了该方法的有效性。
Nov, 2022
本文通过分析,发现现代的神经网络足以直接用随机梯度下降算法实现庞大的非线性优化任务,并且能够克服局部最优解的困难。
Dec, 2014
研究二值化训练和量化方法在神经网络训练中的应用,通过在 MNIST、CIFAR10、SVHN 三个数据集上的实验证明,这种方法不仅不会降低分类性能,反而可以实现比标准随机梯度下降训练更好的性能
Oct, 2015
本文研究了通过神经网络算法实现各种模型的多项式时间可学习性,证明了 SGD 在深度为二的神经网络上能够记忆样本、学习有界权重的多项式,以及学习某些内核空间,并且这些网络具有接近最优的网络大小、样本复杂度和运行时间。
Nov, 2019
本篇论文研究了深度神经网络的低精度模型的训练方法,探讨了在小型设备上训练深度神经网络的难点,提出了一种理论视角下的量化训练方法,并探索了非凸问题下的算法行为模型。
Jun, 2017