自适应采样在加速机器学习算法中的应用

Sep, 2023

自适应采样在加速机器学习算法中的应用

Accelerating Machine Learning Algorithms with Adaptive Sampling

Mo Tiwari

TL;DR巨大数据时代需要高效的机器学习算法，本论文表明，通过使用一种特殊的随机替代品，可以在几乎不降低质量的情况下，代替计算密集型子程序。

Abstract

The era of huge data necessitates highly efficient machine learning algorithms. Many common machine learning algorithms, however, rely on computa

huge data machine learning algorithms computationally intensive subroutines approximation error randomized counterparts

发现论文，激发创造

逐步学习 -- 自适应样本大小学习

研究如何动态增加有效样本大小，以在较小样本量情况下利用低方差的算法达到统计准确性，其中包括了机器学习、随机梯度下降、方差缩减方法等关键词。

Mar, 2016

有关算法子采样的计量经济学视角

这篇论文研究数据分析中的线性回归和数据素描技术，探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断，发现虽然算法上的优化子集无法适用于预测和推断，但通过统计学方法可以提供建议的子集大小，并通过实验表明，使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。

Jul, 2019

利用学习和推理的统计数据

该研究论文探讨了在面对包含海量数据集和需要超级计算机执行的模拟时，如何利用数据与模型之间的固有统计学特性来提高学习和推理的效率，并提出了相应的基于随机梯度的算法来检测概率、提高 MCMC 的更新效率和决定参数更新的接受或拒绝，同时探讨了在大数据和大模拟时代中 Bayesian 方法所面临的一些计算方面的挑战。

Feb, 2014

AdaSelection：通过数据子采样加速深度学习训练

本文介绍了一种自适应子抽样方法 AdaSelection，能够快速训练大规模深度学习模型，同时不会牺牲模型性能，该方法能够灵活地组合任意数量的基准子抽样方法，并在每次迭代中结合方法级重要性和内部方法样本级重要性，我们通过在不同类型的输入和任务上进行分类任务测试以及回归任务测试来展示我们的方法的有效性。与业界标准基线相比，AdaSelection 始终显示出优异的性能。

Jun, 2023

智能抽样用于代理建模、超参数优化和数据分析

在采样技术的研究领域，我们提出智能采样的概念，既可以创建新算法，也可以修改其他领域的适当算法以满足采样需求，经过定量和定性比较发现，简单的算法可以轻松地满足超参数优化、数据分析等方面的采样需求，并且优于当前使用的更复杂的算法，从而更好地利用时间和计算资源。

Jun, 2023

大数据计算的统计方法选择性综述：分布式计算、子抽样和小批量技术

该论文选择性地回顾了大数据分析的统计计算方法。该文重点研究了三类统计计算方法：(1) 分布式计算，(2) 子采样方法，以及 (3) 小批量梯度技术。

Mar, 2024

机器学习的自适应优化算法

研究通过自适应性来改进机器学习的优化算法，包括个性化和用户特定模型、可证明的后训练模型自适应、实时学习未知超参数、快速收敛的二阶方法和基于低维更新的快速可扩展的二阶方法，以提供新的见解、引入具有改进收敛性保证的新算法并改进了流行实用算法的分析。

Nov, 2023

Active Sampler: 面向规模化复杂数据分析的轻量级加速器

通过研究数据访问模式如何影响模型训练，提出了 Active Sampler 算法，它可以让训练数据更加集中在有价值的实例附近，实验证明其能够在 SVM，特征选择和深度学习中提高训练速度 1.6-2.2 倍。

Dec, 2015

通过高效的非参数替代品实现深度学习的自适应采样

通过使用非参数核回归进行采样，我们提出了一种新颖的采样分布，它能够在神经网络训练过程中学习到有效的重要性评分。我们的采样算法在墙钟时间和准确性上优于基准算法。

Nov, 2023

如何做到公正和多样化？

研究机器学习中的算法偏差问题，提出一种同时确保公平和多样性的数据子抽样算法，并在图像总结任务中取得了显着的公平性改善和不太牺牲特征多样性的结果。

Oct, 2016