高效样本无关提升方法
本文研究了在线增强学习的任务,重点探讨在线弱分类器的不同之处,提出了一种新颖的在线增强算法,并通过理论分析设计了算法参数以及确定弱分类器个数等问题,实验结果表明所提出的算法比现有的在线算法效果更好。
Jun, 2012
研究在线提升的两种算法:boost-by-majority和自适应在线提升算法,证明其在可接受精度下基本上是最优的。两种算法都能处理样本的重要性权重,并且使用了在线损失最小化技术。
Feb, 2015
本文将扩展反推理论以解决在线学习中的回归问题,提出了两种弱学习算法模型,并提出一种在线梯度推进算法将弱学习算法转化为强学习算法,同时介绍了一种更简单的反推算法,并证明了其最优性。
Jun, 2015
本文提出了一种黑盒变分推理方法——变分 boosting,通过迭代优化来逼近一个越来越丰富的逼近类,从而扩展其变分逼近类,应用于合成和真实的统计模型,表明通过比较精确和有效地后验推理,其结果优于现有的后验逼近算法。
Nov, 2016
本文针对一种最先进的预测技术——梯度提升方法,通过解决无限维凸优化问题,顺序地生成一个由简单预测器(通常为决策树)的线性组合构成的模型。我们对两个广泛使用的梯度提升版本进行了彻底的分析,并从函数优化的角度引入了一个通用框架来研究这些算法。证明了它们在迭代次数趋近于无穷时的收敛性,并强调了具有强凸风险函数的重要性。我们还提供了一个合理的统计环境,确保在样本大小增长时提高了预测器的一致性。在我们的方法中,优化程序是无限运行的(也就是说,没有采用早期停止策略),并且通过适当的$L^2$损失惩罚和强凸性论证来实现统计正则化。
Jul, 2017
本文通过优化随机梯度增强(SGB)各节点采样的概率,提出了一种新的迭代加速技术 Minimal Variance Sampling (MVS)。该方法不仅能够减少每次迭代所需样本数,而且还能够显著提高模型的质量,因此提出 MVS 为新的默认选项,用于 CatBoost 这一基于梯度增强的机器学习库中。
Oct, 2019
本文建立了一个精确的高维渐近理论,探讨了分离数据上的 Boosting 的统计和计算方法。在考虑特征(弱学习器)数量 $p$ 与样本大小 $n$ 比例过大的高维情况下,提供了一种统计模型的确切分析,探讨了 Boosting 在插值训练数据并最大化经验 l1-margin 时的泛化误差,解答了 Boosting 的相关问题。同时,文章研究了最大 l1-margin,引入了新的非线性方程和高斯比较技术和均匀偏差论证。
Feb, 2020
通过提出一种随机增强算法,我们构建了一个通用框架,将样本压缩方法扩展到支持基于子采样的随机学习算法,并输出具有单对数依赖性的投票分类器的泛化误差,相比于已知可实现的一般的弱到强学习器,我们的算法在训练样本数量方面具有更好的表现。
Feb, 2024
本文解决了样本复杂度优化的缺口,提出了一种新颖且简单的Boosting算法,证明了其样本复杂度是最优的。该算法将训练数据分为五个相等的部分,分别运行AdaBoost,并通过多数投票结合结果,初步实验证明在大数据集上可能优于以往算法。
Aug, 2024