PROMISSING: 剪枝神经网络中的缺失值

Jun, 2022

PROMISSING: 剪枝神经网络中的缺失值

PROMISSING: Pruning Missing Values in Neural Networks

Seyed Mostafa Kia, Nastaran Mohammadian Rad, Daniel van Opstal, Bart van Schie, Andre F. Marquand...

TL;DR该研究提出了一种名为 PROMISSING 的神经网络学习和推断过程中对缺失值进行修剪的方法，无需移除或填补缺失值，而是将其作为一种新的信息源，实现类似于各种填补技术的预测效果，并提高模型对于缺失信息的处理能力。

Abstract

While data are the primary fuel for machine learning models, they often suffer from missing values, especially when collected in real-world scenarios. However, many off-the-shelf →

machine learning missing values neural networks data preprocessing imputation

发现论文，激发创造

统计学习中的确定性和近似确定性模型

本文提出了一种统一的方法，以验证数据插补对于学习准确模型是否必要，并在插补不必要的情况下返回准确模型。通过我们的算法，可以显著减少数据插补所需的时间和工作量，并且不会带来明显的计算负担。

Feb, 2024

基于健康数据库的预测模型缺失值处理方法的基准测试

本文系统评估了处理缺失值的策略在预测模型中的效果，重点关注大型健康数据库，结果表明，在监督式机器学习中自然支持的缺失值预测表现优于最先进的插补方法，且计算成本更低。

Feb, 2022

监督学习的缺失数据插补

本文比较了不同的方法在监督分类任务中填补缺失分类数据的效果，并证明了方法可以提高预测准确性，并达到了 Missing-data perturbation 和 k-nearest-neighbors imputation 下准确率的最新水平。

Oct, 2016

神经网络中的缺失数据处理

我们提出了一种理论上合理的机制，通过神经网络处理缺失数据，即在第一隐藏层中将典型神经元的响应替换为它的期望值，从而实现各种类型的网络上的处理，不需要完整的数据进行训练，并且在各种不完整数据处理方法中表现出更好的结果。

May, 2018

自适应预测缺失数据的优化

训练具有缺失条目的预测模型时，我们可以利用两阶段自适应优化问题来处理缺失数据，并提出了一种新类模型，即自适应线性回归模型，其中回归系数根据观测特征进行自适应。我们展示了一些自适应线性回归模型等价于同时学习一个填充规则和一个下游线性回归模型，而不是顺序学习。我们利用这种联合填充 - 回归解释来推广我们的框架到非线性模型。在数据不随机缺失的情况下，我们的方法可以提高 2-10% 的样本外准确率。

Feb, 2024

神经网络训练中的稀疏偏差校正：为何不使用 0 填充？

本研究提出变量稀疏问题，并通过实验证明了零值归零处理方法在处理缺失数据时性能不佳，提出了一种名为 Sparsity Normalization 的技术，该技术直接解决了变量稀疏问题，并在多个基准数据集上得到了实验验证。

Jun, 2019

处理概率风力预测中的缺失值：一种生成方法

通过利用生成模型，在不需要预处理且避免引入潜在错误的情况下，同时预测基于观测值的所有未知值，提供了一种高效的概率预测方法，相比传统的先填补值再预测方法，能够在连续排名概率得分方面取得更好的性能。

Mar, 2024

使用图表示学处理缺失数据

本文提出了一种名为 GRAPE 的基于图的机器学习框架，它同时处理了特征插补和标签预测问题，通过使用图神经网络，在 9 种基准数据集上实现了比现有最先进方法更低的平均绝对误差（20％的特征插补任务，10％的标签预测任务）

Oct, 2020

NeuMiss 网络：处理有缺失数据的监督学习的可微编程

通过使用缺失指标的新型非线性，本文提出了一种名为 NeuMiss 网络的新颖结构，该结构可解决缺失信息带来的挑战，其计算复杂度和参数量不受缺失数据模式数量的影响，并具有良好的预测精度和统计效率。

Jul, 2020

可学习的提示作为伪填充：重新评估传统电子病历数据填充在下游临床预测中的必要性

基于电子健康记录（EHR）分析患者的健康状况是医学信息学中的一个基础研究问题。现有的深度学习训练协议需要使用统计信息或填补模型来重构缺失值，但是这限制了模型性能。本文引入了 Learnable Prompt as Pseudo Imputation（PAI）作为一种新的训练协议，通过构建可学习的提示来模拟下游模型对缺失值的隐含偏好，从而显著提高所有 EHR 分析模型的性能。此外，实验结果表明，在数据不足和高缺失率的情况下，PAI 表现出更高的鲁棒性。更重要的是，在涉及零射评估的跨机构数据的真实应用中，PAI 展现了更强的模型泛化能力，特别是对非重叠特征。

Jan, 2024