本文比较了不同的方法在监督分类任务中填补缺失分类数据的效果,并证明了方法可以提高预测准确性,并达到了 Missing-data perturbation 和 k-nearest-neighbors imputation 下准确率的最新水平。
Oct, 2016
本文提出了一种半监督时间序列插值方法 ST-Impute,该方法基于稀疏自注意力模型并结合上下游任务的标签数据和无标签数据,在时间序列插值质量和下游任务结果上优于现有的监督和非监督方法。
Apr, 2023
通过考虑特征重要性,我们设计了一种基于矩阵完成和特征重要性学习的填补算法,实验证明该方法在处理缺失值方面优于现有的五种填补算法。
Nov, 2023
研究论文旨在探讨如何使用标签信息来提高缺失数据的填补,并提出了一种同时处理标签和输入数据的分类策略,该策略可适用于连续、分类或混合类型的数据,并取得了令人满意的准确性结果。
本文提出了一个新颖的概率框架,用于处理具有缺失值的多变量时间序列数据的分类问题。通过训练两个部分的模型,一个用于缺失值填补的深度生成模型,一个用于分类的分类器,能够有效地建模填补缺失值带来的不确定性,并且利用新的正则化技术解决了合并模型可能产生的无意义填补解的问题,通过在真实世界数据上进行广泛实验,证明了我们方法的有效性。
Aug, 2023
本文提出了一种统一的方法,以验证数据插补对于学习准确模型是否必要,并在插补不必要的情况下返回准确模型。通过我们的算法,可以显著减少数据插补所需的时间和工作量,并且不会带来明显的计算负担。
Feb, 2024
基于数据类型值和数据中的相关约束条件的数据插补新算法及其与其他算法的比较实验结果。该算法不仅可插补数据,还能生成人类可读的解释,描述用于每次插补的属性的重要性。
May, 2022
本文提出了一个理论框架来理解数据增强技术,并从马尔科夫过程和核分类器两个方向进行分析。研究发现,数据增强可以通过一阶特征平均和二阶方差正则化组件来实现近似。本文还将理论应用于加速机器学习工作流,并证明其在预测变换效用和减少使用增强数据所需计算量方面具有实用价值。
Mar, 2018
提出了一种数据填充算法 $k$NN$ imes$KDE:它将最近邻估计 ($k$NN) 和高斯核密度估计 (KDE) 相结合,可应对复杂原始数据结构,产生更低的数据填充误差,并提供更高似然的概率估计。
Jun, 2023
通过在数据库系统中使用 MICE 方法,本研究实现了高效、高质量和可扩展的数据填充,充分利用计算共享和环形抽象技术以加快模型训练并在 PostgreSQL 和 DuckDB 中取得了比其他 MICE 实现和基于模型填充技术快两个数量级的计算时间,同时保持了高水平的填充质量。
Jan, 2024