决策树归纳的信息增益估计改进

ICMLJun, 2012

Improved Information Gain Estimates for Decision Tree Induction

Sebastian Nowozin

TL;DR本研究探讨了常见的决策树信息增益估算方法的偏差问题，并通过改进离散熵和微分熵的估算方法，提高了分类和回归预测性能。

Abstract

ensembles of classification and regression trees remain popular machine learning methods because they define flexible non-parametric model

ensembles classification regression decision trees information gain

发现论文，激发创造

基于贝叶斯主动学习的分类和偏好学习

通过使用预测熵计算信息增益，我们提出了一种方法来优化高斯过程分类器的主动学习，同时也将其扩展到高斯过程偏好学习，相比其他主动学习和决策理论方法，我们的方法可以在相等或更低的计算复杂度下获得相同的实验性能。

Dec, 2011

提高分类树的精度

提出了四种改善模型精度的技术，在真实和模拟数据集上与树集成等其他算法进行对比，以提高分类树中选择关键预测变量和识别有趣的子组的能力。

Nov, 2010

计算最优树集合

提出了两种新算法以及相应的下限，适用于树集合，展示了决策树和树集合分类训练数据集所需的切割数相比，随着树的数量增加，集合所需的切割数可能会指数级下降。

Jun, 2023

公正的森林：正则化树归纳以最小化模型偏差

本文首次开发了一种公平决策树归纳技术，即 “公平森林”，旨在解决机器学习算法中可能存在的公正性问题，并比其他替代方案提供了更高的准确性和公平性。作者还引入了针对多项和连续属性的新公平度量，并提出了一种全新的评估算法的评估方法，该方法考虑到整个数据集而不仅仅是特定保护属性。

Dec, 2017

决策树从决策规则系统推理的贪婪算法

决策树和决策规则系统在分类器、知识表示工具和算法方面发挥重要作用。本文研究了这两个模型之间的关系，考虑了将决策树转换为决策规则系统的逆转换问题，并提出了一种基于贪婪多项式时间算法，在给定属性值元组上模拟决策树操作的方法。

Jan, 2024

基于整数规划的最优广义决策树

本文提出了一种混合整数规划的方法来构建特定大小的最优决策树，采用特殊结构的分类特征，考虑每个节点上基于特征子集的组合决策，并通过阈值处理处理数值特征，证明了在中等规模的训练集下，采用小型决策树可获得很高的准确率，我们使用现代求解器解决所提出的优化问题。

Dec, 2016

基于决策树作为数据观测过程的贝叶斯决策理论最优预测算法

本篇论文利用决策树表示数据观测过程并使用基于贝叶斯决策理论的先验概率分布，将实现统计上最优的预测结果。同时，我们解决了计算 Bayes 最优预测的问题，例如内部节点的特征分配问题，实现方法为应用马尔可夫链 - 蒙特卡洛方法，其步长可以根据先验分布自适应调整。

Jun, 2023

概率树与单一干预价值

本文主要研究如何从有限的数据中确定因果关系 —— 通过将先前的因果结构与贝叶斯估计相结合，该文提出了概率树作为可能的解决方案。研究发现，单一干预的信息增益、干预前的预期信息增益以及干预后预期得到的信息增益都有简单的表达式。因此给出了一种主动学习方法，即选择预期增益最高的干预方式，并通过几个例子予以说明；同时，该方法也展示了概率树及其参数的贝叶斯估计提供了一种简单而可行的快速因果归纳方法。

May, 2022

GENESIM：基于遗传算法的单一可解释模型提取

本文介绍了使用基因算法将决策树集成转换为单个决策树模型的 GENESIM 算法，其在提高预测性能方面优于决策树归纳技术，并具有与集成技术相同级别的预测性能，而产生模型的复杂性非常低，易于解释。

Nov, 2016

高维树和图模型中的结构参数选择信息准则

本文为实现树形和图形模型的结构化选择，精心平衡误差和遗漏，开发了矫正版的 Mallows's Cp 准则。

Jun, 2023