深度学习模型训练中的能量成本最小化：高斯采样方法

Jun, 2024

深度学习模型训练中的能量成本最小化：高斯采样方法

Minimizing Energy Costs in Deep Learning Model Training: The Gaussian Sampling Approach

Challapalli Phanindra Revanth, Sumohana S. Channappayya, C Krishna Mohan

TL;DR基于模型的过参数化性质和损失函数的平滑性，我们提出了一种名为 “GradSamp” 的方法，通过从高斯分布中采样梯度更新，以高效计算深度学习模型的梯度，从而减少反向传播过程中的能量开销。我们的实验结果验证了 “GradSamp” 在不损失性能的情况下，显著提高了能量效率，并表明其在实际深度学习应用中的多样性和潜在影响。

Abstract

Computing the loss gradient via backpropagation consumes considerable energy during deep learning (DL) model training. In this paper, we propose a novel approach to efficiently compute dl models' gradients to mit

backpropagation energy efficiency gradient sampling dl models efficiency enhancement

发现论文，激发创造

离散分布的可伸缩抽样：梯度抽取错误

使用似然函数关于离散变量的梯度来提议更新，在一些复杂的模型上，我们的采样方法包括 Ising 模型、Potts 模型、受限玻尔兹曼机和分步隐马尔可夫模型等方面表现出优异的性能，并且有效提升以往在高维离散数据处理方面经常使用的变分自编码器和现有基于能量模型的方法的性能。同时我们证明，该方法是在局部更新的抽样器中几乎是最优的。

Feb, 2021

通过方差估计加速锐度感知最小化的有效梯度样本大小

通过采用自适应采样方法基于 PSF 变化的原则，本文提出了一种简单且高效的采样方法，以显著加速模型优化过程中的计算速度，并在广泛的网络架构上实现了与 SAM 相当的最新准确度。

Feb, 2024

分布式重要性采样在 SGD 中的方差减少

该研究提出一种分布式深度学习框架，其中一组工作者并行搜索最具信息性的示例，而单个工作者则使用重要性抽样方法更新模型。实验证明，当采样提议与梯度的 L2 范数成正比时，该方法可以减少梯度方差，即使在跨机器同步成本不可忽略且重要性抽样因子不会立即更新的情况下也是如此。

Nov, 2015

并非所有样本都是相等的：使用重要性采样的深度学习

本研究提出了一种基于重要性采样的计算优化方案，该方案能够减少深度神经网络训练过程中冗余计算，提升模型的训练效果并有效降低损失。实验结果显示，该方案能够在相同的时间预算下，将训练损失降低一个数量级，并提高测试误差 5％至 17％。

Mar, 2018

通过估计数据分布梯度的方式进行生成建模

本文介绍了一种新的生成模型，利用评分匹配来估计数据分布的梯度，通过 Langevin 动力学生成样本。我们的框架使得模型架构更加灵活，无需在训练期间进行抽样或使用对抗性方法，提供了可用于基于原则的模型比较的学习目标。在 MNIST、CelebA 和 CIFAR-10 数据集上，我们的模型产生的样本与 GAN 相当，实现了 CIFAR-10 inception 得分的新的最先进水平为 8.87。此外，我们通过图像修补实验证明了我们的模型学习到了有效的表示。

Jul, 2019

具有梯度采样优化的残差神经网络的鲁棒剪枝

本研究探讨了一种创新的神经网络优化方法，专注于在修剪过程中应用与 StochGradAdam 类似的梯度采样技术。我们的主要目标是在修剪模型时保持高精度水平，这是资源受限场景中的一个重要挑战。我们广泛的实验证明，使用梯度采样技术优化的模型在修剪过程中相对于使用传统优化方法的模型更有效地保持准确性。这一发现强调了梯度采样在促进稳健学习方面的重要性，使得网络即使在复杂度大幅减少后仍能保留关键信息。我们在各种数据集和神经网络结构上验证了我们的方法，展示了其广泛的适用性和有效性。该论文还深入研究了理论方面，解释了梯度采样技术在修剪过程中对模型稳健性的贡献。我们的结果为在计算资源受限的环境中创建不会牺牲准确性的高效神经网络指明了一个有希望的方向。

Dec, 2023

扩散生成流采样器：通过部分轨迹优化改善学习信号

我们提出了一种基于扩散生成流采样器 (DGFS) 的抽样框架，该方法可以将学习过程易于处理地分解为短的部分轨迹段，通过参数化额外的 “流函数”，并且在各种具有挑战性的实验中展示了相比于相关先前方法更准确的规范常量估计。

Oct, 2023

学习绘制样本：应用于生成式对抗学习的摊销 MLE

本论文提出了一种利用随机神经网络训练概率推理目标分布的简单算法，该方法基于 Stein 变分梯度迭代地适应神经网络参数，并将输出沿着与目标分布 KL 散度最大程度下降的 Stein 变分梯度变化，可适用于任何由未归一化密度函数指定的目标分布，并且可以训练任何针对我们想要适应的参数可微不可微黑盒结构。作为我们方法的应用，我们提出了一种用于训练深度能量模型的分摊极大似然估计算法，其中自适应地训练神经采样器来近似似然函数。我们的方法模仿深度能量模型和神经采样器之间的对抗游戏，并获得与最先进结果竞争的逼真图像。

Nov, 2016

能源感知训练最小化深度学习模型的能耗

通过使用基于梯度下降的算法，利用可微分的近似表示 $l_0$ 范数作为稀疏惩罚减少训练模型过程中的能源消耗和预测延迟，实验结果表明该方法能够在分类表现和能源效率之间达到更好的平衡。

Jul, 2023

通过随机梯度哈密顿蒙特卡罗增强低精度采样

低精度训练是一种具有低成本的技术，可以提高深度神经网络的训练效率，而不会牺牲太多准确性。本文通过在强对数凹和非对数凹分布中使用低精度和全精度梯度累加器的随机梯度哈密顿蒙特卡罗（SGHMC）进行低精度采样的研究。理论上，我们的结果表明，对于非对数凹分布，在 2-Wasserstein 距离中实现 ε- 错误，与最先进的低精度采样器随机梯度朗之万动力学（SGLD）相比，低精度 SGHMC 实现了二次改进（〜O（ε^ -2μ^ -2 log^2（ε^ -1）））。此外，我们证明了相对于低精度的 SGLD，低精度的 SGHMC 对量化误差更具鲁棒性，因为基于动量的更新对梯度噪音具有鲁棒性。实验上，我们在合成数据，MNIST、CIFAR-10 和 CIFAR-100 数据集上进行了实验，验证了我们的理论发现。我们的研究突出了低精度 SGHMC 作为一种高效精确的大规模和资源有限的机器学习采样方法的潜力。

Oct, 2023