分布式重要性采样在 SGD 中的方差减少

Nov, 2015

分布式重要性采样在 SGD 中的方差减少

Variance Reduction in SGD by Distributed Importance Sampling

Guillaume Alain, Alex Lamb, Chinnadhurai Sankar, Aaron Courville, Yoshua Bengio

TL;DR该研究提出一种分布式深度学习框架，其中一组工作者并行搜索最具信息性的示例，而单个工作者则使用重要性抽样方法更新模型。实验证明，当采样提议与梯度的 L2 范数成正比时，该方法可以减少梯度方差，即使在跨机器同步成本不可忽略且重要性抽样因子不会立即更新的情况下也是如此。

Abstract

Humans are able to accelerate their learning by selecting training materials that are the most informative and at the appropriate level of difficulty. We propose a framework for distributing deep learning in which one set of workers search for the most →

deep learning informative examples importance sampling gradient variance synchronization

发现论文，激发创造

并非所有样本都是相等的：使用重要性采样的深度学习

本研究提出了一种基于重要性采样的计算优化方案，该方案能够减少深度神经网络训练过程中冗余计算，提升模型的训练效果并有效降低损失。实验结果显示，该方案能够在相同的时间预算下，将训练损失降低一个数量级，并提高测试误差 5％至 17％。

Mar, 2018

自适应采样与重要性采样的高效梯度估计

通过提出的自适应方法和重要性采样方法，在机器学习框架中有效地整合了重要性函数，并仅通过输出层的损失梯度提出了一个简化的重要性函数，以实现在分类和回归任务中更好的收敛性和最小的计算开销。

Nov, 2023

主动偏置：通过强调高方差样本训练更准确的神经网络

本文提出基于样本不确定性轻量级估计的两种改进型随机梯度下降算法：SGD 迭代中正确类别预测概率的方差和与决策阈值的正确类别概率的接近度来重新加权训练样本，实验结果表明我们的方法可靠地提高了各种网络结构的精度，包括残差学习、动量、ADAM、批量标准化、丢弃和蒸馏等其他流行的训练技术所不能达到的额外收益。

Apr, 2017

重要性采样随机优化在变分推断中的应用

本工作提出一种更有效的变分推断算法，该算法采用重要性抽样估计梯度，通过评估近似参数的梯度而无需重新计算模型梯度来加速计算。引入重要性采样的随机梯度下降在一系列模型中优于标准随机梯度下降，同时提供了一种可证明的随机平均梯度变体，可用于变分推断。

Apr, 2017

重要性采样的随机优化

本文研究了使用重要性抽样的随机优化算法，特别是使用重要性抽样的 Prox-SGD 和 Prox-SDCA，并提供广泛的理论分析和实验证明，使用所提出的重要性抽样方法可以显着提高收敛速度。

Jan, 2014

深度神经网络训练的有偏重要性采样

本文提出一种有效的计算深度学习模型中 loss value 的方法，它使用小型模型在并行训练时提高了深度学习优化中重要抽样的应用。结果表明，此方法在测试深度卷积和递归神经网络的图像分类和语言建模任务时取得了良好的普适性。

May, 2017

安全自适应重要性采样

本文提出了一种基于安全梯度边界的渐近式梯度采样方法。这种方法是与给定边界相比最好的抽样分布，对于现有算法而言可以实现高效并且能够大幅加速坐标下降和随机梯度下降。经过大量数值测试，所提出的采样方案的高效性得到了验证。

Nov, 2017

随机优化的在线方差缩减

本文提出了一种基于 Heuristic 和 Bandit 反馈的在线优化算法，可以寻找一种重要性采样分布序列，竞争力可以与后见之明得到的最佳固定分布相媲美，并在实验验证中证明了该算法在多个数据集和设置下有效的优点。

Feb, 2018

FIS-GAN：基于流式重要性采样的 GAN

本文探讨了在生成式对抗网络训练中使用重要性采样方法进行优化的可能性。通过使用重要性采样来替代在潜空间使用均匀分布或高斯分布采样的方法，并利用正则化流来近似潜空间后验分布进行密度估计，结合 MNIST 和 Fashion-MNIST 的实验表明该方法有效提高了生成样本的优化速度且保持了视觉上的保真度。

Oct, 2019

联邦学习的最优重要性采样

本论文研究在联邦学习中使用非均匀的重要性采样策略，证明此策略能够提高算法性能，并在回归和分类问题上进行实验来说明理论结果。

Oct, 2020