数据库内数据填充

Jan, 2024

In-Database Data Imputation

Massimo Perini, Milos Nikolic

TL;DR通过在数据库系统中使用 MICE 方法，本研究实现了高效、高质量和可扩展的数据填充，充分利用计算共享和环形抽象技术以加快模型训练并在 PostgreSQL 和 DuckDB 中取得了比其他 MICE 实现和基于模型填充技术快两个数量级的计算时间，同时保持了高水平的填充质量。

Abstract

missing data is a widespread problem in many domains, creating challenges in data analysis and decision making. Traditional techniques for dealing with →

missing data data analysis model-based imputation computation time mice method

发现论文，激发创造

医疗数据缺失值填补技术的性能评估

该研究比较了七种填补技术在三个医疗数据集上的表现，结果显示 Missforest 填补法表现最好，其次是 MICE 填补法；此外，研究还表明在处理包含缺失值的数据时，首先进行填补再进行特征选择效果更好。

Mar, 2024

基于健康数据库的预测模型缺失值处理方法的基准测试

本文系统评估了处理缺失值的策略在预测模型中的效果，重点关注大型健康数据库，结果表明，在监督式机器学习中自然支持的缺失值预测表现优于最先进的插补方法，且计算成本更低。

Feb, 2022

基于时间的迭代插补策略用于多变量纵向临床数据

本文提出了一种简单的新方法，即基于时间依赖的迭代插补（TDI），用于填补临床数据中的缺失值，该方法针对多变量和纵向数据，并基于数据的临床模式（包括缺失率和测量频率）引入了患者、变量和观察特定的动态加权策略。对 MIMIC III 和 COVID-19 住院病例进行的测试表明，TDI 可提高风险预测的准确性。

Apr, 2023

统计学习中的确定性和近似确定性模型

本文提出了一种统一的方法，以验证数据插补对于学习准确模型是否必要，并在插补不必要的情况下返回准确模型。通过我们的算法，可以显著减少数据插补所需的时间和工作量，并且不会带来明显的计算负担。

Feb, 2024

监督学习的缺失数据插补

本文比较了不同的方法在监督分类任务中填补缺失分类数据的效果，并证明了方法可以提高预测准确性，并达到了 Missing-data perturbation 和 k-nearest-neighbors imputation 下准确率的最新水平。

Oct, 2016

约束下的可解释数据插补

基于数据类型值和数据中的相关约束条件的数据插补新算法及其与其他算法的比较实验结果。该算法不仅可插补数据，还能生成人类可读的解释，描述用于每次插补的属性的重要性。

May, 2022

表格数据中的缺失值插值扩散模型

本文提出了一种用于 Tabular 数据的基于条件分数的扩散模型方法（TabCSDI），并研究了热点问题中的三种处理技术。实验结果表明与现有方法相比，TabCSDI 是有效的，同时也强调了分类嵌入技术的重要性。

Oct, 2022

基于特征重要性的迭代缺失值填补

通过考虑特征重要性，我们设计了一种基于矩阵完成和特征重要性学习的填补算法，实验证明该方法在处理缺失值方面优于现有的五种填补算法。

Nov, 2023

释放扩散模型在不完整数据填充方面的潜力

DiffPuter 是一种迭代方法，利用期望最大化算法和扩散模型进行缺失数据填补，其通过将缺失数据视为可在模型训练过程中更新的隐藏变量，并将缺失数据填补任务作为 EM 问题来处理。DiffPuter 通过扩散模型来学习观测到的数据和当前估计的缺失数据的联合分布，然后根据给定观测数据的条件概率利用在 M-step 学习的扩散模型重新估计缺失数据，通过这个迭代过程，DiffPuter 逐步改进了完整数据分布，产生了对缺失数据越来越准确的估计，理论分析和实证评估表明 DiffPuter 的优越性，与 16 种不同的填补方法相比，在 10 个不同的数据集上，DiffPuter 的 MAE 平均改善了 8.10％，RMSE 平均改善了 5.64％。

May, 2024

具高斯 Copula 的在线缺失值插补和变点检测

本研究提出基于高斯脉冲函数的在线缺失值填补算法，适用于混合数据类型，其算法可以随着数据分布的改变进行演化，并有助于多变量缺失数据中的变点检测。实验表明该方法在合成和实际数据中的性能均表现良好。

Sep, 2020