约束下的可解释数据插补
模型解释中,遗漏数据与解晰人工智能相关联的相关领域的一个主要因素,在本文中,经验性地研究了各种填充方法对 Shapley 值(一种解释复杂机器学习模型的流行技术)的计算的影响。通过比较不同填充策略,评估其对 Shapley 值决定的特征重要性和交互作用的影响,理论上分析了缺失值对 Shapley 值的影响。结果表明,填充方法的选择可能引入偏差,从而改变 Shapley 值,影响模型的解释性,强调了在机器学习模型中考虑填充效应以确保可靠洞见的重要性。
Jun, 2024
本文比较了不同的方法在监督分类任务中填补缺失分类数据的效果,并证明了方法可以提高预测准确性,并达到了 Missing-data perturbation 和 k-nearest-neighbors imputation 下准确率的最新水平。
Oct, 2016
本文提出了一种通过基于主成分分析的方法来确定是否可以准确地填充缺失值的特征填写能力,该方法可以在极端缺失和缺乏基础真相的情况下建立主成分载荷和特征填补能力之间的强线性关系。
Jul, 2020
本文提出了一种统一的方法,以验证数据插补对于学习准确模型是否必要,并在插补不必要的情况下返回准确模型。通过我们的算法,可以显著减少数据插补所需的时间和工作量,并且不会带来明显的计算负担。
Feb, 2024
本文介绍了一种在解决缺失数据问题时使用可解释机器学习的方法。将高精度的玻璃盒可解释性增强机(EBMs)用于缺失值处理,可帮助用户更好地了解缺失机制并检测可能引入的风险。实验表明了该方法在处理真实医疗数据集时的有效性。
Apr, 2023
通过在数据库系统中使用 MICE 方法,本研究实现了高效、高质量和可扩展的数据填充,充分利用计算共享和环形抽象技术以加快模型训练并在 PostgreSQL 和 DuckDB 中取得了比其他 MICE 实现和基于模型填充技术快两个数量级的计算时间,同时保持了高水平的填充质量。
Jan, 2024
本文探讨了 AI 模型中的 imputation 问题及相应应对方法,强调使用 imputed values 时容易产生 counterfactuals 及 unsafe outcomes 问题。
Jul, 2019
研究聚焦于统计方法和机器学习进行缺失数据理解、解释和数据填充,基于儿科急诊数据和英国最大的创伤伤害数据库的数据,研究发现缺失数据非随机,与医疗专业实践模式相关性高,得出使用 1 近邻(1NN)填充方法最佳,表明了临床决策常见的模式。
Feb, 2024
该论文研究了缺失数据对算法公平性的影响,并提出了一种可扩展和自适应的公平分类算法来处理所有可能的缺失模式,以保留缺失模式中编码的信息,并在多个数据集上实验证明该算法相比于传统的 impute-then-classify 方法在公平性和准确性上具有优势。
May, 2023