通用框架:关于对算法无关变量重要性的推断
变量重要性在可解释机器学习中起着关键作用,它有助于衡量因素对预测模型输出的影响。我们的研究重点是评估和评估旨在解决变量重要性评估中特征相关性问题的方法,如条件预测影响(CPI)等,我们首先进行综合模拟研究,调查特征相关性对变量重要性评估的影响,然后通过 knockoff 构造从理论上证明高相关特征对 CPI 的限制。我们的发现强调了处理高特征相关性时的困难和方法在变量重要性评估中的实用性和局限性的必要性。
Feb, 2024
使用合作谢普利方法(Cohort Shapley)来验证黑盒预测算法的重要变量,并通过经济博弈理论来量化变量的重要性。该方法可以用于算法公平性问题,以确定受保护变量的重要性,并通过贝叶斯自助法估计 Shapley 值的不确定性。
May, 2022
本文介绍了一个名为变量重要性云的概念,它将每个变量映射到所有良好预测模型中的重要性,并提出了变量重要性图表作为可视化工具,通过在犯罪司法、营销数据和图像分类任务中的实验证明了变量在近似等精度预测模型中的重要性可以发生很大变化。
Jan, 2019
本研究提出了一种快速且灵活的方法,用于近似估算模型中某一输入变量对于做出特定预测的重要性,并证明了该方法的并发性。通过模拟和气候预测实例,证明了该方法的准确性和实用性。
Jul, 2022
量化变量的重要性对于回答遗传学、公共政策和医学等领域的重要问题至关重要。我们提出了一个新的变量重要性框架,可以跨越所有好模型的集合,稳定地衡量变量的重要性,并在数据分布上准确估计变量的真实重要性。
Sep, 2023
这篇论文介绍了如何将解释性方法扩展到具有不确定性意识的模型中,并演示了如何通过这些方法深入理解模型行为、特征对预测分布熵和真实标签对数似然的影响,以及不确定性来源对模型性能的影响。
Oct, 2023
本篇论文针对高维回归或分类框架中预测变量高度相关的情况下的变量选择问题,研究使用随机森林算法的变量选择。论文提供了一种理论研究和模拟实验的方式,证明了使用递归特征排除算法作为排名标准对变量进行选择的高效性,并进行了陆地卫星数据集的测试。
Oct, 2013