理解采样近似损失的训练加速

Feb, 2024

Understanding the Training Speedup from Sampling with Approximate Losses

Rudrajit Das, Xi Chen, Bertram Ieong, Parikshit Bansal, Sujay Sanghavi

TL;DR通过选择具有大梯度 / 损失的样本，可以显著减少训练步骤，本文提出了一种基于贪婪法选择具有大近似损失的样本来降低选择开销，并在训练 BERT 模型上展示了显著的训练时间节约和收敛速度提升。

Abstract

It is well known that selecting samples with large losses/gradients can significantly reduce the number of training steps. However, the selection overhead is often too high to yield any meaningful gains in terms of overall training time. In this work, we focus on the →

sample selection approximate losses greedy approach early exiting training time

发现论文，激发创造

深度神经网络训练的有偏重要性采样

本文提出一种有效的计算深度学习模型中 loss value 的方法，它使用小型模型在并行训练时提高了深度学习优化中重要抽样的应用。结果表明，此方法在测试深度卷积和递归神经网络的图像分类和语言建模任务时取得了良好的普适性。

May, 2017

使用近似张量运算加速神经网络训练

通过对张量运算（矩阵乘法和卷积）应用基于样本的近似，提出了一种用于深度神经网络加速训练的新技术。应用到 MLP 和 CNN 网络的 MNIST，CIFAR-10 和 ImageNet 数据集的训练实验结果表明，该方法可以大幅度减少计算量和通讯量，并以不会对最终测试准确率产生可感知影响的方式提升训练速度。

May, 2018

深度学习逼近：零样本神经网络加速

本研究针对生产系统中的计算和内存需求问题，提出一种 Deep Learning Approximation 技术，通过对网络结构和系数进行操作，而不需要重新训练或获得训练数据，从而构建出快速网络。该技术通过应用一系列独立的优化来降低正向传递所需的 FLOPs，其中包括无失真的优化和使用奇异值分解和低秩矩阵分解的有损近似。该研究通过对 PASCAL VOC 2007 数据集中的 YOLO 网络进行测试，证明了这种方法可以在不降低相对准确性的情况下，在网络正向传递中实现 2 倍的加速。

Jun, 2018

并非所有样本都是相等的：使用重要性采样的深度学习

本研究提出了一种基于重要性采样的计算优化方案，该方案能够减少深度神经网络训练过程中冗余计算，提升模型的训练效果并有效降低损失。实验结果显示，该方案能够在相同的时间预算下，将训练损失降低一个数量级，并提高测试误差 5％至 17％。

Mar, 2018

选择损失最小的样本使 SGD 更加稳健

本文介绍针对使用随机梯度下降优化的机器学习模型在训练中可能出现的离群值导致参数偏差问题提出的一种新算法，该算法通过选择一组 k 个样本中当前损失最小的进行更新的方式可以提高模型的健壮性和准确性，可能对于各类由凸损失函数构成的机器学习问题都适用。

Jan, 2020

深度学习模型训练中的能量成本最小化：高斯采样方法

基于模型的过参数化性质和损失函数的平滑性，我们提出了一种名为 “GradSamp” 的方法，通过从高斯分布中采样梯度更新，以高效计算深度学习模型的梯度，从而减少反向传播过程中的能量开销。我们的实验结果验证了 “GradSamp” 在不损失性能的情况下，显著提高了能量效率，并表明其在实际深度学习应用中的多样性和潜在影响。

Jun, 2024

逐步学习 -- 自适应样本大小学习

研究如何动态增加有效样本大小，以在较小样本量情况下利用低方差的算法达到统计准确性，其中包括了机器学习、随机梯度下降、方差缩减方法等关键词。

Mar, 2016

KAKURENBO：深度神经网络训练中的自适应样本隐藏

本文提出了一种方法，通过在训练深度神经网络时隐藏最不重要的样本，从而提高效率，即减少训练成本。通过在训练过程中使用损失和预测置信度的信息，我们根据样本对整体学习过程的贡献动态地在给定的 epoch 中找到要排除的样本，而不会显著降低准确性。实证结果表明，在各种大规模数据集和图像分类与分割直接使用的模型上，尽管基于替换的重要性抽样算法在大型数据集上效果不佳，我们的方法在仅将准确性降低 0.4% 的情况下，可以将总训练时间缩短高达 22%。可在此 https URL 获取代码。

Oct, 2023

通过对抗性 Softmax 近似进行极值分类

本文提出一种简单的训练方法，通过从模仿数据分布的对抗模型中绘制负样本来大大增强梯度信号，以实现极端分类的高效训练，并在大规模数据集上实现了训练时间相对于几个竞争基线的数量级的减少。

Feb, 2020

努力了解你邻居的边界：本地描述符学习损失

提出了一种受到 SIFT 匹配标准启发的用于学习局部特征描述符的新型损失函数，试验结果表明，该损失函数优于复杂的正则化方法，且适用于浅层和深层卷积网络结构，将新型损失函数应用于 L2Net CNN 结构得到的紧凑描述符，维度与 SIFT 相同 (128)，并取得了宽基线立体、块验证和实例检索基准的最先进性能。

May, 2017