Dec, 2023

单变量和多变量决策树的相关性和非预期偏差

TL;DR决策树是可访问、可解释且性能良好的分类模型。在过去的四十年里,已提出了众多表达能力不断增强的变体。我们对两类一元决策树和多元决策树进行对比,一元决策树通过轴平行超平面对数据进行分区,而多元决策树通过斜超平面对数据进行分区。后者包括前者,因此多元决策树原则上更强大。然而,出乎意料的是,一元决策树在文献中始终展现出相当的性能。我们通过合成和真实世界的基准数据集分析了其原因。我们的研究问题试图测试在数据集中去除特征间相关性的预处理阶段是否对一元决策树和多元决策树的相对性能产生影响。我们发现现有的基准数据集很可能存在偏向一元决策树的问题。