关于足够纯度减小条件下 CART 的收敛性
本文研究了 CART 方法构建的回归树的统计特性,发现训练误差由每个节点中的最优决策树与响应数据的 Pearson 相关性控制,并通过构建先验分布和解决非线性优化问题来限制其范围,利用训练误差和 Pearson 相关性之间的联系来展示当深度随样本大小的对数尺度变化时,使用 cost-complexity pruning 的 CART 方法可以实现最佳复杂度 / 拟合度权衡,同时,数据相关量可以适应回归模型的维度和潜在结构,控制预测误差的收敛速度。
Jun, 2020
使用稀疏感应的 soft decision trees 取代传统的决策树集成方法,可以克服它们的光滑性差和受维度灾难的困扰。在 Bayesian additive regression trees 框架下实现该方法,理论上得到强大的支持,并在基准数据集上表现出良好的性能。
Jul, 2017
本文提出了一种基于随机序列算法的最小化极限风险收敛速率的方法,其鲁棒性得到了保证, 并对于损失函数的凸度及输出分布中的噪声级别等因素,提供了紧凑的可执行上限界。
Mar, 2007
本文通过调查决策树和随机森林分类与回归中的条件操作符选择的偏差,针对具有格特征的特征的存在,提出了消除这种偏差的技术,并证明了偏差可能导致 AUC 和 r² 得分的显著差异。此外,通过提出的技术与最坏情况相比,在 AUC 和 r² 得分方面实现了统计显著的改进。
Dec, 2023
在现代统计学和机器学习中,条件独立性检验是基础性且具有挑战性的。许多现代的条件独立性检验方法依赖于强大的监督学习方法,在学习回归函数或贝叶斯预测器时作为一种中间步骤。然而,当监督学习方法由于模型错误估计导致失败时,这些方法的行为了解还很有限。在更广义上,即使使用通用逼近器(如深度神经网络),模型错误估计仍然可能产生。因此,我们研究了基于回归的条件独立性测试在模型错误估计下的性能。具体地,我们提出了三个基于回归的测试的测试误差的新近似值或上界,这些误差依赖于模型错误估计。此外,我们引入了一种新的基于回归的条件独立性测试方法,即 Rao-Blackwellized 预测器测试(RBPT),该方法对模型错误估计具有鲁棒性。最后,我们使用人工数据和真实数据进行实验证明了我们的理论和方法的有用性。
Jul, 2023