KAKURENBO：深度神经网络训练中的自适应样本隐藏

Oct, 2023

KAKURENBO：深度神经网络训练中的自适应样本隐藏

KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training

Truong Thao Nguyen, Balazs Gerofi, Edgar Josafat Martinez-Noriega, François Trahay, Mohamed Wahib

TL;DR本文提出了一种方法，通过在训练深度神经网络时隐藏最不重要的样本，从而提高效率，即减少训练成本。通过在训练过程中使用损失和预测置信度的信息，我们根据样本对整体学习过程的贡献动态地在给定的 epoch 中找到要排除的样本，而不会显著降低准确性。实证结果表明，在各种大规模数据集和图像分类与分割直接使用的模型上，尽管基于替换的重要性抽样算法在大型数据集上效果不佳，我们的方法在仅将准确性降低 0.4% 的情况下，可以将总训练时间缩短高达 22%。可在此 https URL 获取代码。

Abstract

This paper proposes a method for hiding the least-important samples during the training of deep neural networks to increase efficiency, i.

deep neural networks efficiency training importance sampling training time reduction

发现论文，激发创造

并非所有样本都是相等的：使用重要性采样的深度学习

本研究提出了一种基于重要性采样的计算优化方案，该方案能够减少深度神经网络训练过程中冗余计算，提升模型的训练效果并有效降低损失。实验结果显示，该方案能够在相同的时间预算下，将训练损失降低一个数量级，并提高测试误差 5％至 17％。

Mar, 2018

深度神经网络训练的有偏重要性采样

本文提出一种有效的计算深度学习模型中 loss value 的方法，它使用小型模型在并行训练时提高了深度学习优化中重要抽样的应用。结果表明，此方法在测试深度卷积和递归神经网络的图像分类和语言建模任务时取得了良好的普适性。

May, 2017

通过高效的非参数替代品实现深度学习的自适应采样

通过使用非参数核回归进行采样，我们提出了一种新颖的采样分布，它能够在神经网络训练过程中学习到有效的重要性评分。我们的采样算法在墙钟时间和准确性上优于基准算法。

Nov, 2023

分布式重要性采样在 SGD 中的方差减少

该研究提出一种分布式深度学习框架，其中一组工作者并行搜索最具信息性的示例，而单个工作者则使用重要性抽样方法更新模型。实验证明，当采样提议与梯度的 L2 范数成正比时，该方法可以减少梯度方差，即使在跨机器同步成本不可忽略且重要性抽样因子不会立即更新的情况下也是如此。

Nov, 2015

自适应采样与重要性采样的高效梯度估计

通过提出的自适应方法和重要性采样方法，在机器学习框架中有效地整合了重要性函数，并仅通过输出层的损失梯度提出了一个简化的重要性函数，以实现在分类和回归任务中更好的收敛性和最小的计算开销。

Nov, 2023

SwiftLearn: 使用重要抽样的深度学习模型高效训练方法

SwiftLearn 是一种数据高效的方法，通过在训练的暖启动阶段选择一部分数据样本加速深度学习模型的训练，实现减少训练时间。实验结果表明，在各种计算机视觉和自然语言处理模型的预训练和微调过程中，通过减少训练样本数量可以保持模型性能，并实现显著的加速效果，如 BERT 在 GLUE 基准上可以降低近 90% 的数据，从而实现平均加速比为 3.36 倍，且平均准确度下降小于 0.92%。

Nov, 2023

数据丢弃：优化卷积神经网络的训练数据

本文运用深度学习中的卷积神经网络构建了一种 Two-Round 训练方法，定位和排除不利于提高泛化准确性的训练样本，从而提高了基于图像分类和降噪的高级和低级计算机视觉任务的处理性能。

Sep, 2018

HiDDeN: 使用深度网络隐藏数据

文中讨论深度神经网络的鲁棒性，探索使用对抗干扰来做数据隐藏的可行性，并展示了效果竞争力强的编码技术及其在对抗干扰下的鲁棒性的改进方式。

Jul, 2018

利用伪示例优化从头开始的小样本神经网络学习

该论文提出了一种利用知识蒸馏的方法来训练具有有限训练数据的神经网络的技术，该方法引入了一些新的 pseudo training examples，通过这些伪样本更好地优化了模型参数。实验结果表明，与传统的基线和知识蒸馏方法相比，该方法表现出更好的性能。

Feb, 2018

理解采样近似损失的训练加速

通过选择具有大梯度 / 损失的样本，可以显著减少训练步骤，本文提出了一种基于贪婪法选择具有大近似损失的样本来降低选择开销，并在训练 BERT 模型上展示了显著的训练时间节约和收敛速度提升。

Feb, 2024