理解采样近似损失的训练加速
本文提出一种有效的计算深度学习模型中 loss value 的方法,它使用小型模型在并行训练时提高了深度学习优化中重要抽样的应用。结果表明,此方法在测试深度卷积和递归神经网络的图像分类和语言建模任务时取得了良好的普适性。
May, 2017
通过对张量运算(矩阵乘法和卷积)应用基于样本的近似,提出了一种用于深度神经网络加速训练的新技术。应用到 MLP 和 CNN 网络的 MNIST,CIFAR-10 和 ImageNet 数据集的训练实验结果表明,该方法可以大幅度减少计算量和通讯量,并以不会对最终测试准确率产生可感知影响的方式提升训练速度。
May, 2018
本研究针对生产系统中的计算和内存需求问题,提出一种 Deep Learning Approximation 技术,通过对网络结构和系数进行操作,而不需要重新训练或获得训练数据,从而构建出快速网络。该技术通过应用一系列独立的优化来降低正向传递所需的 FLOPs,其中包括无失真的优化和使用奇异值分解和低秩矩阵分解的有损近似。该研究通过对 PASCAL VOC 2007 数据集中的 YOLO 网络进行测试,证明了这种方法可以在不降低相对准确性的情况下,在网络正向传递中实现 2 倍的加速。
Jun, 2018
本研究提出了一种基于重要性采样的计算优化方案,该方案能够减少深度神经网络训练过程中冗余计算,提升模型的训练效果并有效降低损失。实验结果显示,该方案能够在相同的时间预算下,将训练损失降低一个数量级,并提高测试误差 5%至 17%。
Mar, 2018
本文介绍针对使用随机梯度下降优化的机器学习模型在训练中可能出现的离群值导致参数偏差问题提出的一种新算法,该算法通过选择一组 k 个样本中当前损失最小的进行更新的方式可以提高模型的健壮性和准确性,可能对于各类由凸损失函数构成的机器学习问题都适用。
Jan, 2020
基于模型的过参数化性质和损失函数的平滑性,我们提出了一种名为 “GradSamp” 的方法,通过从高斯分布中采样梯度更新,以高效计算深度学习模型的梯度,从而减少反向传播过程中的能量开销。我们的实验结果验证了 “GradSamp” 在不损失性能的情况下,显著提高了能量效率,并表明其在实际深度学习应用中的多样性和潜在影响。
Jun, 2024
本文提出了一种方法,通过在训练深度神经网络时隐藏最不重要的样本,从而提高效率,即减少训练成本。通过在训练过程中使用损失和预测置信度的信息,我们根据样本对整体学习过程的贡献动态地在给定的 epoch 中找到要排除的样本,而不会显著降低准确性。实证结果表明,在各种大规模数据集和图像分类与分割直接使用的模型上,尽管基于替换的重要性抽样算法在大型数据集上效果不佳,我们的方法在仅将准确性降低 0.4% 的情况下,可以将总训练时间缩短高达 22%。可在此 https URL 获取代码。
Oct, 2023
本文提出一种简单的训练方法,通过从模仿数据分布的对抗模型中绘制负样本来大大增强梯度信号,以实现极端分类的高效训练,并在大规模数据集上实现了训练时间相对于几个竞争基线的数量级的减少。
Feb, 2020
提出了一种受到 SIFT 匹配标准启发的用于学习局部特征描述符的新型损失函数,试验结果表明,该损失函数优于复杂的正则化方法,且适用于浅层和深层卷积网络结构,将新型损失函数应用于 L2Net CNN 结构得到的紧凑描述符,维度与 SIFT 相同 (128),并取得了宽基线立体、块验证和实例检索基准的最先进性能。
May, 2017