MINTY:基于规则的模型最小化缺失特征的填充需求
本文系统评估了处理缺失值的策略在预测模型中的效果,重点关注大型健康数据库,结果表明,在监督式机器学习中自然支持的缺失值预测表现优于最先进的插补方法,且计算成本更低。
Feb, 2022
该研究提出了一种名为 PROMISSING 的神经网络学习和推断过程中对缺失值进行修剪的方法,无需移除或填补缺失值,而是将其作为一种新的信息源,实现类似于各种填补技术的预测效果,并提高模型对于缺失信息的处理能力。
Jun, 2022
本文介绍了一种用于处理缺失数据的方法——Missing Indicator Method,该方法通过在特征矩阵中添加缺失模式指示变量来搭配数据的填充,能够提高模型性能,同时还针对高维数据可能出现的模型过拟合问题,提出了一种 SMIM 扩展方法,并在实际的临床数据任务中表明了方法的实用性。
Nov, 2022
本文提出了一个新的算法 MISNN,用于处理高维缺失数据的多重插补问题,该算法借助于神经网络的逼近能力,将特征选择嵌入 MI 模型中,经过实验证明在插补准确度、统计一致性和计算速度等方面优于现有的 Bayesian Lasso 和矩阵补全等最新算法。
May, 2023
通过利用分布鲁棒优化,我们提出了一个新的公式来学习一组规则集的集合,以在保持计算成本低的同时确保良好的泛化性能,并通过构建一个稀疏的规则集合来解决规则集的稀疏性和预测准确性之间的固有权衡。
Nov, 2023
训练具有缺失条目的预测模型时,我们可以利用两阶段自适应优化问题来处理缺失数据,并提出了一种新类模型,即自适应线性回归模型,其中回归系数根据观测特征进行自适应。我们展示了一些自适应线性回归模型等价于同时学习一个填充规则和一个下游线性回归模型,而不是顺序学习。我们利用这种联合填充-回归解释来推广我们的框架到非线性模型。在数据不随机缺失的情况下,我们的方法可以提高2-10%的样本外准确率。
Feb, 2024
本文提出了一种统一的方法,以验证数据插补对于学习准确模型是否必要,并在插补不必要的情况下返回准确模型。通过我们的算法,可以显著减少数据插补所需的时间和工作量,并且不会带来明显的计算负担。
Feb, 2024
采用动态缺失感知集成加权 (Dynamic missingness-aware Ensemble Weighting, DEW) 方法处理缺失数据的机器学习任务,优化整个 pipeline 来提高模型性能和校准度。
Apr, 2024
模型解释中,遗漏数据与解晰人工智能相关联的相关领域的一个主要因素,在本文中,经验性地研究了各种填充方法对Shapley值(一种解释复杂机器学习模型的流行技术)的计算的影响。通过比较不同填充策略,评估其对Shapley值决定的特征重要性和交互作用的影响,理论上分析了缺失值对Shapley值的影响。结果表明,填充方法的选择可能引入偏差,从而改变Shapley值,影响模型的解释性,强调了在机器学习模型中考虑填充效应以确保可靠洞见的重要性。
Jun, 2024
本研究提出了Shades-of-NULL,一个用于负责任缺失值填补的基准,解决了现有方法在不同缺失机制下评估不足的问题。研究通过建模真实的缺失场景,提供了一种全面的评估方法,结合预测性能、公平性和稳定性来评价填补技术。研究结果显示,不同填补方法在复杂缺失场景下表现出有趣的性能模式,促进了相关领域对缺失值填补方法的深入研究。
Sep, 2024