协变量转移下的分类树剪枝

May, 2023

Classification Tree Pruning Under Covariate Shift

Nicholas Galbraith, Samory Kpotufe

TL;DR本研究讨论了在不同分布的训练数据中，选择一个平衡偏差和方差的适当子树的剪枝问题，并提出了首个在这种情况下进行最优剪枝的高效程序。

Abstract

We consider the problem of \emph{pruning} a classification tree, that is, selecting a suitable subtree that balances bias and variance, in common situations with →

pruning classification tree inhomogeneous training data optimal pruning average discrepancy

发现论文，激发创造

协变量漂移下的稳健公平性

通过考虑协变量变化，提出了一种对于未知数据能够保持公正与性能的预测模型的方法。

Oct, 2020

在协变量偏移下，在少量测试样本的情况下改善公平性和准确性的权衡

在测试数据中的协变量偏移可以显著降低模型的准确性和公平性表现。我们提出了一种基于加权熵的预测准确性目标和表示匹配损失的新型组合目标函数，通过实验证明了我们的损失函数优化在公平性与准确性的权衡上优于其他基线方法。我们还提出了一种称为不对称协变量偏移的新颖设置，并展示了我们的方法在这种设置下的显著优势。最后，我们理论上证明了在训练集上的加权熵项和预测损失可以近似于协变量偏移时的测试损失。我们通过实验证明了这种对未见测试损失的近似不依赖于影响其他基线方法的重要性采样方差。

Oct, 2023

学习对分布变化鲁棒的最优分类树

基于混合整数规划技术，我们提出了一种学习鲁棒分类树的方法，通过问题转化和约束生成的解决方法，在公共可用数据集上展示了最差情况准确率提高了 12.48%，平均情况准确率提高了 4.85%。

Oct, 2023

在先验概率转移下最小化量词方差

通过研究二元预测问题、先验概率转移及基础分类器的优化策略，本文确定其最大似然估计量的渐近方差，发现其与特征下类别标签的 Brier 得分相关，并点明了训练基础分类器的方法以最优化训练集和测试集的 Brier 得分。

Jul, 2021

协变量偏移适应性的双加权方法

该研究提出了最小化风险分类的方法来处理资料控制变量变化的问题，同时也发展了有效的技术，取得了更好的分类性能。

May, 2023

信息几何泛化协变量移位自适应

本文研究了机器学习中的一个重要研究主题：协变量转移。我们表明这个领域的方法都可以归为信息几何的范畴，并且我们提出的方法可以更高效地进行参数搜索和更好地适应数据，结果比现有方法好。

Apr, 2023

处理任意协变量偏移学习的容错算法

研究在任意分布转移下的学习问题，重点关注 PQ 学习、TDS 学习两个框架以及谱异常移除技术对多项式回归及容忍可测试学习的影响。

Jun, 2024

CART 稀疏学习

本文研究了 CART 方法构建的回归树的统计特性，发现训练误差由每个节点中的最优决策树与响应数据的 Pearson 相关性控制，并通过构建先验分布和解决非线性优化问题来限制其范围，利用训练误差和 Pearson 相关性之间的联系来展示当深度随样本大小的对数尺度变化时，使用 cost-complexity pruning 的 CART 方法可以实现最佳复杂度 / 拟合度权衡，同时，数据相关量可以适应回归模型的维度和潜在结构，控制预测误差的收敛速度。

Jun, 2020

通过有条件的不变正则化器打破相关性偏移

本文提出了一种基于条件独立的度量标准 Conditional Spurious Variation (CSV)，用于控制基于测试数据及其与类标签的相关性来测量模型的一般性并结合该度量标准来通过规范化训练过程来提高模型的一般化性能，增强模型对越界数据的鲁棒性。

Jul, 2022

分类器调整：变革在发生

提出了无界和有界的调整方法，以平均预测与类分布相等化，以最小化得分规则。实验结果表明在实际应用中，即使类分布仅近似已知，仍然可以根据移位量和类分布的精度减少损失。

Nov, 2021