约束下的可解释数据插补

May, 2022

Explainable Data Imputation using Constraints

Sandeep Hans, Diptikalyan Saha, Aniya Aggarwal

TL;DR基于数据类型值和数据中的相关约束条件的数据插补新算法及其与其他算法的比较实验结果。该算法不仅可插补数据，还能生成人类可读的解释，描述用于每次插补的属性的重要性。

Abstract

Data values in a dataset can be missing or anomalous due to mishandling or human error. Analysing data with missing values can create bias and affect the inferences. Several analysis methods, such as principle components analysis or singular value decomposition, require complete data. Many approaches impute numeric data and some do not consider dependency of

data imputation missing data attribute dependencies algorithm experimental results

发现论文，激发创造

机器学习模型在缺失数据下的可解释性

模型解释中，遗漏数据与解晰人工智能相关联的相关领域的一个主要因素，在本文中，经验性地研究了各种填充方法对 Shapley 值（一种解释复杂机器学习模型的流行技术）的计算的影响。通过比较不同填充策略，评估其对 Shapley 值决定的特征重要性和交互作用的影响，理论上分析了缺失值对 Shapley 值的影响。结果表明，填充方法的选择可能引入偏差，从而改变 Shapley 值，影响模型的解释性，强调了在机器学习模型中考虑填充效应以确保可靠洞见的重要性。

Jun, 2024

监督学习的缺失数据插补

本文比较了不同的方法在监督分类任务中填补缺失分类数据的效果，并证明了方法可以提高预测准确性，并达到了 Missing-data perturbation 和 k-nearest-neighbors imputation 下准确率的最新水平。

Oct, 2016

在缺乏已知真相的情况下预测特征的可辨识性

本文提出了一种通过基于主成分分析的方法来确定是否可以准确地填充缺失值的特征填写能力，该方法可以在极端缺失和缺乏基础真相的情况下建立主成分载荷和特征填补能力之间的强线性关系。

Jul, 2020

统计学习中的确定性和近似确定性模型

本文提出了一种统一的方法，以验证数据插补对于学习准确模型是否必要，并在插补不必要的情况下返回准确模型。通过我们的算法，可以显著减少数据插补所需的时间和工作量，并且不会带来明显的计算负担。

Feb, 2024

医疗数据中的缺失值和填补：可解释机器学习能提供帮助吗？

本文介绍了一种在解决缺失数据问题时使用可解释机器学习的方法。将高精度的玻璃盒可解释性增强机（EBMs）用于缺失值处理，可帮助用户更好地了解缺失机制并检测可能引入的风险。实验表明了该方法在处理真实医疗数据集时的有效性。

Apr, 2023

数据库内数据填充

通过在数据库系统中使用 MICE 方法，本研究实现了高效、高质量和可扩展的数据填充，充分利用计算共享和环形抽象技术以加快模型训练并在 PostgreSQL 和 DuckDB 中取得了比其他 MICE 实现和基于模型填充技术快两个数量级的计算时间，同时保持了高水平的填充质量。

Jan, 2024

基于特征重要性的迭代缺失值填补

通过考虑特征重要性，我们设计了一种基于矩阵完成和特征重要性学习的填补算法，实验证明该方法在处理缺失值方面优于现有的五种填补算法。

Nov, 2023

解释性人工智能模型中的填补难题

本文探讨了 AI 模型中的 imputation 问题及相应应对方法，强调使用 imputed values 时容易产生 counterfactuals 及 unsafe outcomes 问题。

Jul, 2019

医学黑暗物质中隐藏着什么？在医疗实践中学习丢失的数据

研究聚焦于统计方法和机器学习进行缺失数据理解、解释和数据填充，基于儿科急诊数据和英国最大的创伤伤害数据库的数据，研究发现缺失数据非随机，与医疗专业实践模式相关性高，得出使用 1 近邻（1NN）填充方法最佳，表明了临床决策常见的模式。

Feb, 2024

适应缺失值的公平干预

该论文研究了缺失数据对算法公平性的影响，并提出了一种可扩展和自适应的公平分类算法来处理所有可能的缺失模式，以保留缺失模式中编码的信息，并在多个数据集上实验证明该算法相比于传统的 impute-then-classify 方法在公平性和准确性上具有优势。

May, 2023