研究如何动态增加有效样本大小,以在较小样本量情况下利用低方差的算法达到统计准确性,其中包括了机器学习、随机梯度下降、方差缩减方法等关键词。
Mar, 2016
这篇论文研究数据分析中的线性回归和数据素描技术,探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断,发现虽然算法上的优化子集无法适用于预测和推断,但通过统计学方法可以提供建议的子集大小,并通过实验表明,使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。
Jul, 2019
该研究论文探讨了在面对包含海量数据集和需要超级计算机执行的模拟时,如何利用数据与模型之间的固有统计学特性来提高学习和推理的效率,并提出了相应的基于随机梯度的算法来检测概率、提高 MCMC 的更新效率和决定参数更新的接受或拒绝,同时探讨了在大数据和大模拟时代中 Bayesian 方法所面临的一些计算方面的挑战。
Feb, 2014
本文介绍了一种自适应子抽样方法 AdaSelection,能够快速训练大规模深度学习模型,同时不会牺牲模型性能,该方法能够灵活地组合任意数量的基准子抽样方法,并在每次迭代中结合方法级重要性和内部方法样本级重要性,我们通过在不同类型的输入和任务上进行分类任务测试以及回归任务测试来展示我们的方法的有效性。与业界标准基线相比,AdaSelection 始终显示出优异的性能。
Jun, 2023
在采样技术的研究领域,我们提出智能采样的概念,既可以创建新算法,也可以修改其他领域的适当算法以满足采样需求,经过定量和定性比较发现,简单的算法可以轻松地满足超参数优化、数据分析等方面的采样需求,并且优于当前使用的更复杂的算法,从而更好地利用时间和计算资源。
该论文选择性地回顾了大数据分析的统计计算方法。该文重点研究了三类统计计算方法:(1) 分布式计算,(2) 子采样方法,以及 (3) 小批量梯度技术。
Mar, 2024
研究通过自适应性来改进机器学习的优化算法,包括个性化和用户特定模型、可证明的后训练模型自适应、实时学习未知超参数、快速收敛的二阶方法和基于低维更新的快速可扩展的二阶方法,以提供新的见解、引入具有改进收敛性保证的新算法并改进了流行实用算法的分析。
Nov, 2023
通过研究数据访问模式如何影响模型训练,提出了 Active Sampler 算法,它可以让训练数据更加集中在有价值的实例附近,实验证明其能够在 SVM,特征选择和深度学习中提高训练速度 1.6-2.2 倍。
Dec, 2015
通过使用非参数核回归进行采样,我们提出了一种新颖的采样分布,它能够在神经网络训练过程中学习到有效的重要性评分。我们的采样算法在墙钟时间和准确性上优于基准算法。
研究机器学习中的算法偏差问题,提出一种同时确保公平和多样性的数据子抽样算法,并在图像总结任务中取得了显着的公平性改善和不太牺牲特征多样性的结果。
Oct, 2016