回归树的稳定更新
通过研究实际医疗应用中的决策树模型,引入了一种新的距离度量方法并提出了一种新的训练方法,以增强模型的稳定性,探究决策树稳定性、预测能力和可解释性之间的平衡。在六个实际医疗应用案例的定量和定性分析中表明,通过小幅度的预测能力下降(4.6%),可以显著提高模型的稳定性(38%)。
May, 2023
通过运用博弈论、局部特征交互作用效应和全局模型结构,我们实现了对基于树的机器学习模型的高可解释性,应用于三个医疗机器学习问题,在透露模型全局结构的同时保持其基本特征,识别出美国人口中高强度但低频率的非线性死亡风险因素,突显具有共同危险特征的明显人口亚组,识别出慢性肾脏疾病危险因素之间的非线性交互作用效应,并监测在医院部署的机器学习模型(Identifying factors leading to model's performance decay over time)
May, 2019
研究一种学习针对回归问题的可解释表示的方法,将特征表示为由神经网络中常用的激活函数和其他基本函数组成的多类型表达树的网络。通过梯度下降来训练可微分特征,并利用特征在线性模型中的性能来加权每个表示子组件的变化率。该方法可以产生比梯度提升更小、在 100 个开源回归问题上的平均测试得分更高的表示。
Jul, 2018
本研究探讨了机器学习模型的稳定性问题,提出了评估模型稳定性的方法,并发现网络架构和输入表示等模型设计选择对稳定性有重大影响,推荐在进行建模选择时考虑准确性和抖动之间的权衡。
Jan, 2022
本文提出了一种新的方法,即在训练时直接对黑盒模型进行可解释性正则化,以改善解释效果,提高模型的可解释性,并保持一定的准确性。
May, 2019
在机器学习集成中,多个模型的预测被汇总。本文证明了一个定理,表明任何集成模型都会展现出至少一种形式的预测不稳定性,从而需要在信息利用的好处和预测不稳定性的风险之间取得平衡。该分析还揭示了特定集成算法所产生的预测不稳定性的形式,例如像随机森林或 xgboost 这样的流行树集成算法将违反基本的、直观的单调性和公平性属性。
Jul, 2024
本文介绍了一种名为 “地区树规则化” 的方法,它可以在维持准确率的同时让神经网络更具有可解释性,该方法通过预先定义输入空间中特定区域所需的决策逻辑,鼓励深层模型分别被数个分离的决策树所逼近,本方法在多个数据集上都比只训练每个区域的决策树更能提高准确预测,同时比其他神经网络规则化方案更简单,并不会破坏预测能力;两个医疗案例证明了本方法可以通过对神经网络的审查来提高理解。
Aug, 2019