何时适用 Subagging？

Apr, 2024

When does Subagging Work?

Christos Revelas, Otilia Boldea, Bas J.M. Werker

TL;DR我们研究了子采样聚合在回归树上的有效性，证明了树的点态一致性的充分条件，并比较了子采样与树在不同分割数量下的性能，结果表明，子采样在任何给定分割数量下都优于单个树，并且在分割数量较多时改进效果更明显，然而，如果单个树的大小选择不合理，则以最佳大小生长的单个树可能优于子采样。

Abstract

We study the effectiveness of subagging, or subsample aggregating, on regression trees, a popular non-parametric method in machine learning. First, we give sufficient conditions for →

subagging regression trees pointwise consistency bias variance

发现论文，激发创造

关于子抽样增强的概率位模型树

使用方差 - 偏差分解的见解，我们设计了一种名为 SBPMT 的新的混合 Bagging-Boosting 算法，用于解决分类问题。该算法使用 Probit Model Tree 作为 AdaBoost 过程中的基分类器，并结合多个子抽样数据集上的增强 Probit Model Trees 以形成强大的 “委员会”。理论分析表明，SBPMT 在特定假设下是一致的，增加子抽样次数能在一定程度上降低 SBPMT 的泛化误差，并且 PMT 中的较大 ProbitBoost 迭代次数能够在 AdaBoost 部分中减少步骤，从而提高 SBPMT 的性能。在与其他先进分类方法的性能比较中，SBPMT 算法具有一般竞争力的预测能力，并在某些情况下表现明显更好。

Nov, 2023

装袋法显著提升泛化效果

通过在参数化级别适当地聚合基学习器而非输出级别，Bagging 能够以指数衰减减少慢慢消失的推广误差，从而显著提升推广性能。

May, 2024

有关算法子采样的计量经济学视角

这篇论文研究数据分析中的线性回归和数据素描技术，探讨在样本量有限的情况下如何选择行列子集对数据进行估计和推断，发现虽然算法上的优化子集无法适用于预测和推断，但通过统计学方法可以提供建议的子集大小，并通过实验表明，使用不同的子集来估计结果可以将预测结果效率与使用全样本的方法几乎相同。

Jul, 2019

CART 稀疏学习

本文研究了 CART 方法构建的回归树的统计特性，发现训练误差由每个节点中的最优决策树与响应数据的 Pearson 相关性控制，并通过构建先验分布和解决非线性优化问题来限制其范围，利用训练误差和 Pearson 相关性之间的联系来展示当深度随样本大小的对数尺度变化时，使用 cost-complexity pruning 的 CART 方法可以实现最佳复杂度 / 拟合度权衡，同时，数据相关量可以适应回归模型的维度和潜在结构，控制预测误差的收敛速度。

Jun, 2020

高维正则化回归中的自举和子抽样分析

研究使用重新采样方法估计统计模型的不确定性，探讨其在高维监督回归任务中的性能，特别关注广义线性模型和过参数化区域下的预测一致性与可靠性。

Feb, 2024

随机森林的代价复杂度剪枝

通过使用 out-of-bag 样本来提高随机森林的泛化误差表现。对 UCI 数据库中的四个数据集进行的初步实证研究表明，随机森林的规模有所减小，而精度损失不大。

Mar, 2017

协变量转移下的分类树剪枝

本研究讨论了在不同分布的训练数据中，选择一个平衡偏差和方差的适当子树的剪枝问题，并提出了首个在这种情况下进行最优剪枝的高效程序。

May, 2023

核心集学习现实检查

本文对来自于 coreset 和 optimal subsampling 文献的多个 logistic regression 方法进行了直接比较，并发现了它们有效性上的不一致性，很多情况下这些方法都没有超过简单的均匀抽样。

Jan, 2023

统计汇聚的本地风险界限

本文研究了聚合理论中的统计学设置，并通过用较小的局部复杂度替换全局复杂度来加强经典聚合理论的结果，包括基于 Leung 和 Barron 的指数权重估计器的局部经典简单限制，并针对 Q - 聚合估计器提出了偏差最优限制。

Jun, 2023

大规模高斯过程回归的普适稳健贝叶斯委员会机

为了扩展标准高斯过程回归到大规模数据集，聚合模型采用因子化训练过程，然后结合来自分布式专家的预测。然而，现有的聚合模型要么提供不一致的预测，要么需要耗时的聚合过程。本文对典型聚合方式使用不连续或随机数据划分的不一致性进行了证明，并提出了一种高效且一致性的大规模高斯过程聚合模型。所提出的模型继承了聚合的优点，如闭合形式推理和聚合，并行化和分布式计算。此外，理论和实证分析表明，由于预测一致，所以新的聚合模型在训练样本接近无穷大时会更加优越。

Jun, 2018