何时适用 Subagging?
使用方差 - 偏差分解的见解,我们设计了一种名为 SBPMT 的新的混合 Bagging-Boosting 算法,用于解决分类问题。该算法使用 Probit Model Tree 作为 AdaBoost 过程中的基分类器,并结合多个子抽样数据集上的增强 Probit Model Trees 以形成强大的 “委员会”。理论分析表明,SBPMT 在特定假设下是一致的,增加子抽样次数能在一定程度上降低 SBPMT 的泛化误差,并且 PMT 中的较大 ProbitBoost 迭代次数能够在 AdaBoost 部分中减少步骤,从而提高 SBPMT 的性能。在与其他先进分类方法的性能比较中,SBPMT 算法具有一般竞争力的预测能力,并在某些情况下表现明显更好。
Nov, 2023
这篇论文研究数据分析中的线性回归和数据素描技术,探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断,发现虽然算法上的优化子集无法适用于预测和推断,但通过统计学方法可以提供建议的子集大小,并通过实验表明,使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。
Jul, 2019
本文研究了 CART 方法构建的回归树的统计特性,发现训练误差由每个节点中的最优决策树与响应数据的 Pearson 相关性控制,并通过构建先验分布和解决非线性优化问题来限制其范围,利用训练误差和 Pearson 相关性之间的联系来展示当深度随样本大小的对数尺度变化时,使用 cost-complexity pruning 的 CART 方法可以实现最佳复杂度 / 拟合度权衡,同时,数据相关量可以适应回归模型的维度和潜在结构,控制预测误差的收敛速度。
Jun, 2020
通过使用 out-of-bag 样本来提高随机森林的泛化误差表现。对 UCI 数据库中的四个数据集进行的初步实证研究表明,随机森林的规模有所减小,而精度损失不大。
Mar, 2017
本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较,并发现了它们有效性上的不一致性,很多情况下这些方法都没有超过简单的均匀抽样。
Jan, 2023
本文研究了聚合理论中的统计学设置,并通过用较小的局部复杂度替换全局复杂度来加强经典聚合理论的结果,包括基于 Leung 和 Barron 的指数权重估计器的局部经典简单限制,并针对 Q - 聚合估计器提出了偏差最优限制。
Jun, 2023
为了扩展标准高斯过程回归到大规模数据集,聚合模型采用因子化训练过程,然后结合来自分布式专家的预测。然而,现有的聚合模型要么提供不一致的预测,要么需要耗时的聚合过程。本文对典型聚合方式使用不连续或随机数据划分的不一致性进行了证明,并提出了一种高效且一致性的大规模高斯过程聚合模型。所提出的模型继承了聚合的优点,如闭合形式推理和聚合,并行化和分布式计算。此外,理论和实证分析表明,由于预测一致,所以新的聚合模型在训练样本接近无穷大时会更加优越。
Jun, 2018