Xputer:利用 NMF,XGBoost 和简化的 GUI 体验填补数据差距
DiffPuter 是一种迭代方法,利用期望最大化算法和扩散模型进行缺失数据填补,其通过将缺失数据视为可在模型训练过程中更新的隐藏变量,并将缺失数据填补任务作为 EM 问题来处理。DiffPuter 通过扩散模型来学习观测到的数据和当前估计的缺失数据的联合分布,然后根据给定观测数据的条件概率利用在 M-step 学习的扩散模型重新估计缺失数据,通过这个迭代过程,DiffPuter 逐步改进了完整数据分布,产生了对缺失数据越来越准确的估计,理论分析和实证评估表明 DiffPuter 的优越性,与 16 种不同的填补方法相比,在 10 个不同的数据集上,DiffPuter 的 MAE 平均改善了 8.10%,RMSE 平均改善了 5.64%。
May, 2024
该论文提出了一种利用基于评分的扩散和条件流匹配生成和填补混合类型(连续和分类)表格数据的新方法。相对于依赖神经网络作为函数近似器的先前工作,我们使用了 XGBoost,一种流行的梯度提升树(GBT)方法。我们的方法在多个数据集上经验性地表明:当训练数据集是干净的或受到缺失数据影响时,它能够生成高度逼真的合成数据,并生成多样的合理数据填补。我们的方法经常优于深度学习生成方法,并且可以使用 CPU 并行训练,无需 GPU。为了方便使用,我们通过 PyPI 发布了我们的 Python 库和 CRAN 上的 R 包。
Sep, 2023
本文提出 Imputer,一种神经序列模型,通过插值迭代地生成输出序列。Imputer 是一种迭代生成模型,只需要恒定数量的生成步骤,与输入或输出标记的数量无关。Imputer 可以被训练成近似边际化输入和输出序列之间所有可能的对齐和所有可能的生成顺序等。我们提出了一种可行的动态规划训练算法,它产生对数边际似然的下界。在端到端语音识别中,Imputer 优于之前的非自回归模型,并与自回归模型取得竞争性的结果。在 LibriSpeech test-other 上,Imputer 取得了 11.1 WER 的成绩,优于 13.0 WER 的 CTC 和 12.5 WER 的 seq2seq。
Feb, 2020
通过在数据库系统中使用 MICE 方法,本研究实现了高效、高质量和可扩展的数据填充,充分利用计算共享和环形抽象技术以加快模型训练并在 PostgreSQL 和 DuckDB 中取得了比其他 MICE 实现和基于模型填充技术快两个数量级的计算时间,同时保持了高水平的填充质量。
Jan, 2024
提出了一种非参数方法,使用随机森林(random forest)基于迭代插补(iterative imputation)处理混合类型数据中的缺失值,相较于其他插值方法,特别是在疑似存在复杂交互作用和非线性关系的数据集中,该方法表现出较高的性能,且具有良好的计算效率和处理高维度数据的能力。
May, 2011
这篇论文研究了使用深度神经网络架构解决多元时间序列插补问题。通过利用低秩插补方法的经验和专长,我们为传统的 Transformer 模型添加了三项知识驱动的增强,包括投影时间注意力、全局自适应图卷积和 Fourier 插补损失。这些面向任务的归纳偏置利用了不完整时间序列的内在结构,使得我们的模型适用于多种插补问题。我们通过在包括交通速度、交通流量、太阳能、智能电表和空气质量等异构数据集上进行全面的案例研究来进一步加强其可解释性,并通过有希望的实证结果有力地证明了将低秩属性等时间序列原始特征纳入模型可以大幅促进通用化模型的开发,从而解决广泛的时空插补问题。
Dec, 2023
本研究提出一种基于概率模型的方法 Low Rank Gaussian Copula,可用于缺失值的填充,并能够量化填充结果的不确定性,实验结果表明该方法具有目前最先进的填充精度和良好的不确定性预测能力。
Jun, 2020
本文提出了一个新颖的概率框架,用于处理具有缺失值的多变量时间序列数据的分类问题。通过训练两个部分的模型,一个用于缺失值填补的深度生成模型,一个用于分类的分类器,能够有效地建模填补缺失值带来的不确定性,并且利用新的正则化技术解决了合并模型可能产生的无意义填补解的问题,通过在真实世界数据上进行广泛实验,证明了我们方法的有效性。
Aug, 2023
本研究提出基于高斯脉冲函数的在线缺失值填补算法,适用于混合数据类型,其算法可以随着数据分布的改变进行演化,并有助于多变量缺失数据中的变点检测。实验表明该方法在合成和实际数据中的性能均表现良好。
Sep, 2020
该研究比较了七种填补技术在三个医疗数据集上的表现,结果显示 Missforest 填补法表现最好,其次是 MICE 填补法;此外,研究还表明在处理包含缺失值的数据时,首先进行填补再进行特征选择效果更好。
Mar, 2024