协变量转移下的分类树剪枝
在测试数据中的协变量偏移可以显著降低模型的准确性和公平性表现。我们提出了一种基于加权熵的预测准确性目标和表示匹配损失的新型组合目标函数,通过实验证明了我们的损失函数优化在公平性与准确性的权衡上优于其他基线方法。我们还提出了一种称为不对称协变量偏移的新颖设置,并展示了我们的方法在这种设置下的显著优势。最后,我们理论上证明了在训练集上的加权熵项和预测损失可以近似于协变量偏移时的测试损失。我们通过实验证明了这种对未见测试损失的近似不依赖于影响其他基线方法的重要性采样方差。
Oct, 2023
基于混合整数规划技术,我们提出了一种学习鲁棒分类树的方法,通过问题转化和约束生成的解决方法,在公共可用数据集上展示了最差情况准确率提高了 12.48%,平均情况准确率提高了 4.85%。
Oct, 2023
通过研究二元预测问题、先验概率转移及基础分类器的优化策略,本文确定其最大似然估计量的渐近方差,发现其与特征下类别标签的 Brier 得分相关,并点明了训练基础分类器的方法以最优化训练集和测试集的 Brier 得分。
Jul, 2021
本文研究了机器学习中的一个重要研究主题:协变量转移。我们表明这个领域的方法都可以归为信息几何的范畴,并且我们提出的方法可以更高效地进行参数搜索和更好地适应数据,结果比现有方法好。
Apr, 2023
本文研究了 CART 方法构建的回归树的统计特性,发现训练误差由每个节点中的最优决策树与响应数据的 Pearson 相关性控制,并通过构建先验分布和解决非线性优化问题来限制其范围,利用训练误差和 Pearson 相关性之间的联系来展示当深度随样本大小的对数尺度变化时,使用 cost-complexity pruning 的 CART 方法可以实现最佳复杂度 / 拟合度权衡,同时,数据相关量可以适应回归模型的维度和潜在结构,控制预测误差的收敛速度。
Jun, 2020
本文提出了一种基于条件独立的度量标准 Conditional Spurious Variation (CSV),用于控制基于测试数据及其与类标签的相关性来测量模型的一般性并结合该度量标准来通过规范化训练过程来提高模型的一般化性能,增强模型对越界数据的鲁棒性。
Jul, 2022
提出了无界和有界的调整方法,以平均预测与类分布相等化,以最小化得分规则。实验结果表明在实际应用中,即使类分布仅近似已知,仍然可以根据移位量和类分布的精度减少损失。
Nov, 2021