PROMISSING: 剪枝神经网络中的缺失值
本文提出了一种统一的方法,以验证数据插补对于学习准确模型是否必要,并在插补不必要的情况下返回准确模型。通过我们的算法,可以显著减少数据插补所需的时间和工作量,并且不会带来明显的计算负担。
Feb, 2024
本文系统评估了处理缺失值的策略在预测模型中的效果,重点关注大型健康数据库,结果表明,在监督式机器学习中自然支持的缺失值预测表现优于最先进的插补方法,且计算成本更低。
Feb, 2022
本文比较了不同的方法在监督分类任务中填补缺失分类数据的效果,并证明了方法可以提高预测准确性,并达到了 Missing-data perturbation 和 k-nearest-neighbors imputation 下准确率的最新水平。
Oct, 2016
我们提出了一种理论上合理的机制,通过神经网络处理缺失数据,即在第一隐藏层中将典型神经元的响应替换为它的期望值,从而实现各种类型的网络上的处理,不需要完整的数据进行训练,并且在各种不完整数据处理方法中表现出更好的结果。
May, 2018
训练具有缺失条目的预测模型时,我们可以利用两阶段自适应优化问题来处理缺失数据,并提出了一种新类模型,即自适应线性回归模型,其中回归系数根据观测特征进行自适应。我们展示了一些自适应线性回归模型等价于同时学习一个填充规则和一个下游线性回归模型,而不是顺序学习。我们利用这种联合填充 - 回归解释来推广我们的框架到非线性模型。在数据不随机缺失的情况下,我们的方法可以提高 2-10% 的样本外准确率。
Feb, 2024
本研究提出变量稀疏问题,并通过实验证明了零值归零处理方法在处理缺失数据时性能不佳,提出了一种名为 Sparsity Normalization 的技术,该技术直接解决了变量稀疏问题,并在多个基准数据集上得到了实验验证。
Jun, 2019
通过利用生成模型,在不需要预处理且避免引入潜在错误的情况下,同时预测基于观测值的所有未知值,提供了一种高效的概率预测方法,相比传统的先填补值再预测方法,能够在连续排名概率得分方面取得更好的性能。
Mar, 2024
本文提出了一种名为 GRAPE 的基于图的机器学习框架,它同时处理了特征插补和标签预测问题,通过使用图神经网络,在 9 种基准数据集上实现了比现有最先进方法更低的平均绝对误差(20%的特征插补任务,10%的标签预测任务)
Oct, 2020
通过使用缺失指标的新型非线性,本文提出了一种名为 NeuMiss 网络的新颖结构,该结构可解决缺失信息带来的挑战,其计算复杂度和参数量不受缺失数据模式数量的影响,并具有良好的预测精度和统计效率。
Jul, 2020
基于电子健康记录(EHR)分析患者的健康状况是医学信息学中的一个基础研究问题。现有的深度学习训练协议需要使用统计信息或填补模型来重构缺失值,但是这限制了模型性能。本文引入了 Learnable Prompt as Pseudo Imputation(PAI)作为一种新的训练协议,通过构建可学习的提示来模拟下游模型对缺失值的隐含偏好,从而显著提高所有 EHR 分析模型的性能。此外,实验结果表明,在数据不足和高缺失率的情况下,PAI 表现出更高的鲁棒性。更重要的是,在涉及零射评估的跨机构数据的真实应用中,PAI 展现了更强的模型泛化能力,特别是对非重叠特征。
Jan, 2024