基于决策树抽样的特征重要性测量
通过纠正 Random Forests 和其他基于树的方法中的变量重要性衡量中的偏差,将 split-improvement 在外部样本数据上计算后巧妙地整合,可以得到更好的特征总结和筛选工具。
Mar, 2019
决策树在可解释的机器学习中是重要的预测模型,本文介绍了一种新的蒙特卡洛树搜索算法 (TSDT),在在线环境中通过汤普森抽样来产生最优的决策树,并经过实验证明该算法在几个基准测试中表现优于现有算法,并具有适用于在线环境的实际优势。
Apr, 2024
本文介绍了一种解释性特征重要性算法 SSFI,可以识别对于单个样本预测最重要的特征,并通过随机森林分类器 / 回归器的预测路径计算低级特征重要性,从而得出特征的相对重要性排序,同时在四个不同数据集上提出了数值和可视化结果。
Nov, 2019
本文提出一种时间序列分类的树集成方法 —— 时间序列森林 (TSF),采用 Entrance gain 准则计算熵增益和距离度量,同时提出了一种用于捕捉时间序列分类中重要时序特征的 “时间重要性曲线”,在简单特征下性能超过了一些竞争对手如动态时间扭曲进行最近邻分类器,并且具有线性计算复杂度和基于并行计算技术。
Feb, 2013
在这篇论文中,研究了类平衡对随机森林变量重要性的影响,并提出了一种利用随机森林变量重要性和置信区间的变量选择算法,在实验研究中表明该算法可以有效地选择最优特征集,改善类不平衡问题的预测性能。
Dec, 2023
通过使用 out-of-bag 样本来提高随机森林的泛化误差表现。对 UCI 数据库中的四个数据集进行的初步实证研究表明,随机森林的规模有所减小,而精度损失不大。
Mar, 2017
解决了如何在树集合模型中找出影响力训练样本的问题,并对扩展该方法以适用于非参数模型提出了几种方法。实验证明,本方法不仅性能良好,而且计算效率高。
Feb, 2018
本文将决策树和随机森林重新解释为生成模型,从而引入了一种能够处理缺失数据和异常检测的新型混合生成 - 判别模型族。通过在实验中与 K 近邻插补等处理缺失数据的方法进行比较,我们发现该模型能够自然地处理数据缺失和异常值检测。
Jun, 2020
提出了一种用于构建决策树的方法,可以近似复杂机器学习模型的性能,可用于解释和简化随机森林(RFs)和其他模型的预测模式。在医学问卷中,树形结构特别有意义,因为它使问卷自适应地缩短,减轻回答负担。 研究了分裂的渐近行为,并引入了一种改进的分裂方法,旨在稳定树形结构。经实验证明,我们的方法可以同时实现高近似性和稳定性。
Oct, 2016
本文介绍了一种新的深度概率模型,叫作 “生成森林”,这种模型将随机森林扩展到了生成模型,可以表示整个特征空间上的联合分布,解决了判别模型缺乏处理预测不确定性方法的问题,并且可以测量每个预测的稳健性和检测分布外的样本。
Jul, 2020