MINTY：基于规则的模型最小化缺失特征的填充需求

Nov, 2023

MINTY：基于规则的模型最小化缺失特征的填充需求

MINTY: Rule-based Models that Minimize the Need for Imputing Features with Missing Values

Lena Stempfle, Fredrik D. Johansson

TL;DR本文提出了使用规则模型来避免对缺失值的依赖，并减少在测试时需要使用统计插补模型或启发式方法的情况，从而增强模型的解释性、适应性和可靠性。通过使用合成和真实数据集进行实验证明了MINTY的价值，并发现其具有与基线相当或更好的预测性能，同时对于缺失值的依赖更小。

Abstract

rule models are often preferred in prediction tasks with tabular inputs as they can be easily interpreted using natural language and provide predictive performance on par with more complex models. However, most <

发现论文，激发创造

基于健康数据库的预测模型缺失值处理方法的基准测试

本文系统评估了处理缺失值的策略在预测模型中的效果，重点关注大型健康数据库，结果表明，在监督式机器学习中自然支持的缺失值预测表现优于最先进的插补方法，且计算成本更低。

Feb, 2022

PROMISSING: 剪枝神经网络中的缺失值

该研究提出了一种名为 PROMISSING 的神经网络学习和推断过程中对缺失值进行修剪的方法，无需移除或填补缺失值，而是将其作为一种新的信息源，实现类似于各种填补技术的预测效果，并提高模型对于缺失信息的处理能力。

Jun, 2022

缺失指示器法：从低维到高维

本文介绍了一种用于处理缺失数据的方法——Missing Indicator Method，该方法通过在特征矩阵中添加缺失模式指示变量来搭配数据的填充，能够提高模型性能，同时还针对高维数据可能出现的模型过拟合问题，提出了一种 SMIM 扩展方法，并在实际的临床数据任务中表明了方法的实用性。

Nov, 2022

MISNN: 半参数神经网络多元插补

本文提出了一个新的算法 MISNN，用于处理高维缺失数据的多重插补问题，该算法借助于神经网络的逼近能力，将特征选择嵌入 MI 模型中，经过实验证明在插补准确度、统计一致性和计算速度等方面优于现有的 Bayesian Lasso 和矩阵补全等最新算法。

May, 2023

应用分布鲁棒优化获得可解释的分类模型

通过利用分布鲁棒优化，我们提出了一个新的公式来学习一组规则集的集合，以在保持计算成本低的同时确保良好的泛化性能，并通过构建一个稀疏的规则集合来解决规则集的稀疏性和预测准确性之间的固有权衡。

Nov, 2023

自适应预测缺失数据的优化

训练具有缺失条目的预测模型时，我们可以利用两阶段自适应优化问题来处理缺失数据，并提出了一种新类模型，即自适应线性回归模型，其中回归系数根据观测特征进行自适应。我们展示了一些自适应线性回归模型等价于同时学习一个填充规则和一个下游线性回归模型，而不是顺序学习。我们利用这种联合填充-回归解释来推广我们的框架到非线性模型。在数据不随机缺失的情况下，我们的方法可以提高2-10%的样本外准确率。

Feb, 2024

统计学习中的确定性和近似确定性模型

本文提出了一种统一的方法，以验证数据插补对于学习准确模型是否必要，并在插补不必要的情况下返回准确模型。通过我们的算法，可以显著减少数据插补所需的时间和工作量，并且不会带来明显的计算负担。

Feb, 2024

M-DEW: 对缺失值进行动态集成加权的扩展

采用动态缺失感知集成加权 (Dynamic missingness-aware Ensemble Weighting, DEW) 方法处理缺失数据的机器学习任务，优化整个 pipeline 来提高模型性能和校准度。

Apr, 2024

机器学习模型在缺失数据下的可解释性

模型解释中，遗漏数据与解晰人工智能相关联的相关领域的一个主要因素，在本文中，经验性地研究了各种填充方法对Shapley值（一种解释复杂机器学习模型的流行技术）的计算的影响。通过比较不同填充策略，评估其对Shapley值决定的特征重要性和交互作用的影响，理论上分析了缺失值对Shapley值的影响。结果表明，填充方法的选择可能引入偏差，从而改变Shapley值，影响模型的解释性，强调了在机器学习模型中考虑填充效应以确保可靠洞见的重要性。

Jun, 2024

关于负责任的缺失值填补的基准：更多的NULL阴影

本研究提出了Shades-of-NULL，一个用于负责任缺失值填补的基准，解决了现有方法在不同缺失机制下评估不足的问题。研究通过建模真实的缺失场景，提供了一种全面的评估方法，结合预测性能、公平性和稳定性来评价填补技术。研究结果显示，不同填补方法在复杂缺失场景下表现出有趣的性能模式，促进了相关领域对缺失值填补方法的深入研究。

Sep, 2024