提升、投票分类器与随机样本压缩方案
研究在线提升的两种算法:boost-by-majority和自适应在线提升算法,证明其在可接受精度下基本上是最优的。两种算法都能处理样本的重要性权重,并且使用了在线损失最小化技术。
Feb, 2015
本文提出了一种新的方法来解释AdaBoost和随机森林的工作原理,即它们都能产生类似的“尖峰平缓”的分类器,且并不需要规则化或早期停止。
Apr, 2015
本文建立了一个精确的高维渐近理论,探讨了分离数据上的 Boosting 的统计和计算方法。在考虑特征(弱学习器)数量 $p$ 与样本大小 $n$ 比例过大的高维情况下,提供了一种统计模型的确切分析,探讨了 Boosting 在插值训练数据并最大化经验 l1-margin 时的泛化误差,解答了 Boosting 的相关问题。同时,文章研究了最大 l1-margin,引入了新的非线性方程和高斯比较技术和均匀偏差论证。
Feb, 2020
本文提出了一种新的增强算法 ProBoost,它利用每个训练样本的认识不确定性确定最具挑战性/不确定性的样本,从而使得下一个弱学习器的相关性得到提高,生成一个逐渐聚焦于具有最高不确定性的样本的序列。此外,还介绍了三种操作训练集的方法和两种集成组合的方法,并对基于变分推断或蒙特卡洛丢失的不确定性估计的概率模型进行了研究。在MNIST基准数据集上进行的实验评估表明,ProBoost能够显著提高性能。
Sep, 2022
该研究解决了在集成学习中,如何用较少的基学习器达到通常需要大量基学习器的性能这一问题。通过引入置信张量来评估基学习器在不同类别上的表现,并设计平滑的凸目标函数,大幅提升了分类性能和泛化能力。研究表明,该方法在数量较少的基学习器条件下,能获得优于传统大规模算法的结果。
Aug, 2024
本研究解决了如何在有限的基本学习者下仍能实现高性能的问题。提出了一种创新的信心张量,能够提升每个弱基本学习者的整合效率,从而在较少的基本学习者的情况下实现更优的分类性能。研究表明,该方法在多个数据集上优于其他传统算法,具有显著的应用潜力。
Aug, 2024
本文解决了样本复杂度优化的缺口,提出了一种新颖且简单的Boosting算法,证明了其样本复杂度是最优的。该算法将训练数据分为五个相等的部分,分别运行AdaBoost,并通过多数投票结合结果,初步实验证明在大数据集上可能优于以往算法。
Aug, 2024
本研究针对机器学习中的弱教师与强学生模型,深入探讨了在不完美伪标签下的弱到强泛化问题。研究发现,在弱监督之后,强学生会经历成功泛化和随机猜测两个渐近阶段,并提出了适用于该理论的关键不等式,为后续的多类分类研究奠定了基础。
Oct, 2024
本文针对无关提升中的样本效率低下问题,提出了一种全新的方法,显著提高了样本利用率而不增加计算复杂度。研究结果表明,该算法相较于已有的无关联提升算法展现出更好的样本效率,并且在其他学习问题(如强化学习的提升)上也取得了改进效果。
Oct, 2024