通过运用博弈论、局部特征交互作用效应和全局模型结构,我们实现了对基于树的机器学习模型的高可解释性,应用于三个医疗机器学习问题,在透露模型全局结构的同时保持其基本特征,识别出美国人口中高强度但低频率的非线性死亡风险因素,突显具有共同危险特征的明显人口亚组,识别出慢性肾脏疾病危险因素之间的非线性交互作用效应,并监测在医院部署的机器学习模型(Identifying factors leading to model's performance decay over time)
May, 2019
本文证明了决策树并不总是能够提供简明易懂的解释,因为存在着解释冗余的路径。文章提出了一种理论严谨的路径解释方法,并提供了多项实验结果来支持这一结论。文章还提出了一种消除路径解释冗余的算法,可以实现简约而不失理解性的解释。
May, 2022
为了解释黑盒模型,本文提出使用决策树对其进行全局解释,并采用新的决策树提取算法避免过拟合,评估表明该方法正确率更高且可解释性更强。
May, 2017
本文研究布尔决策树在导出、最小化和计数足够原因和对比解释方面的计算能力,证明了给定决策树的实例的最小大小的所有足够原因集合可以指数级大于输入大小,因此生成完整的足够原因集合可能是不可行的,而生成一个足够原因集无法证明是充分的,介绍了相关特征和必要特征的概念以及解释重要性的概念,并展示了如何通过一个模型计数操作获取特征重要性和足够原因的数量,最后表明,与足够的理由不同,决策树给定实例的所有对比解释可以在多项式时间内导出、最小化和计数。
Aug, 2021
该研究提出了一种计算 DT 的极小解释集 PI-explanations 的新模型,该模型可在多项式时间内计算一个 PI-explanation,并将枚举 PI-explanations 减少到枚举最小击中集的数量。实验结果表明,在大多数情况下,DT 的路径是 PI-explanations 的子集。
Oct, 2020
我们提出了一种新颖的方法,利用 TreeSHAP 解释性方法在线选择基于树的模型,并在时间序列预测任务中进行运用,以解决过拟合问题和模型选择的困境。实证研究表明,我们的方法在多个真实数据集上取得了与现有方法和基线方法相当甚至更好的结果。
Jan, 2024
通过与传统树模型如 XGBoost 和随机森林的对比,研究发现,对于中等大小数据集(约 10K 个样本),树模型仍然是当前在表格数据上的最佳选择;研究还提出了神经网络在表格数据上建模的若干挑战,并为后续研究提供基准测试数据和计算资源。
Jul, 2022
本文研究可解释 K-means 和 K-median 聚类问题,证明了在欧几里得平面上,解释深度降低会导致聚类成本的无界损失,并将其扩展到 K-center 目标。
May, 2023
本文提出了一种基于格论的代数方法来解释树集成分类器中随机森林的分类性能,并展示了该方法在提供全局解释方面的能力。
Feb, 2023
本研究提出了 Deep Neural Decision Trees(DNDT)—— 由神经网络实现的树模型,可以用于处理表格数据,DNDT 具有自解释性和自剪枝功能。
Jun, 2018