追求更好分类的数据插补：一种监督式基于核函数的方法

May, 2024

追求更好分类的数据插补：一种监督式基于核函数的方法

Data Imputation by Pursuing Better Classification: A Supervised Kernel-Based Method

Ruikai Yang, Fan He, Mingzhen He, Kaijie Wang, Xiaolin Huang

TL;DR提出一种新的框架，通过利用监督信息来完成缺失数据，使其有利于分类，并在四个真实数据集上证明了该方法的优越性能。

Abstract

data imputation, the process of filling in missing feature elements for incomplete data sets, plays a crucial role in data-driven learning. A fundamental belief is that data imputation is helpful for learning per

data imputation supervision information classification kernel matrix missing data

发现论文，激发创造

监督学习的缺失数据插补

本文比较了不同的方法在监督分类任务中填补缺失分类数据的效果，并证明了方法可以提高预测准确性，并达到了 Missing-data perturbation 和 k-nearest-neighbors imputation 下准确率的最新水平。

Oct, 2016

使用半监督学习进行时间序列插值：填补丢失数据的空缺

本文提出了一种半监督时间序列插值方法 ST-Impute，该方法基于稀疏自注意力模型并结合上下游任务的标签数据和无标签数据，在时间序列插值质量和下游任务结果上优于现有的监督和非监督方法。

Apr, 2023

基于特征重要性的迭代缺失值填补

通过考虑特征重要性，我们设计了一种基于矩阵完成和特征重要性学习的填补算法，实验证明该方法在处理缺失值方面优于现有的五种填补算法。

Nov, 2023

使用训练标签进行填充，并通过标签填充进行分类

研究论文旨在探讨如何使用标签信息来提高缺失数据的填补，并提出了一种同时处理标签和输入数据的分类策略，该策略可适用于连续、分类或混合类型的数据，并取得了令人满意的准确性结果。

Nov, 2023

时间序列分类中的概率性数据补全

本文提出了一个新颖的概率框架，用于处理具有缺失值的多变量时间序列数据的分类问题。通过训练两个部分的模型，一个用于缺失值填补的深度生成模型，一个用于分类的分类器，能够有效地建模填补缺失值带来的不确定性，并且利用新的正则化技术解决了合并模型可能产生的无意义填补解的问题，通过在真实世界数据上进行广泛实验，证明了我们方法的有效性。

Aug, 2023

统计学习中的确定性和近似确定性模型

本文提出了一种统一的方法，以验证数据插补对于学习准确模型是否必要，并在插补不必要的情况下返回准确模型。通过我们的算法，可以显著减少数据插补所需的时间和工作量，并且不会带来明显的计算负担。

Feb, 2024

约束下的可解释数据插补

基于数据类型值和数据中的相关约束条件的数据插补新算法及其与其他算法的比较实验结果。该算法不仅可插补数据，还能生成人类可读的解释，描述用于每次插补的属性的重要性。

May, 2022

现代数据增强的内核理论

本文提出了一个理论框架来理解数据增强技术，并从马尔科夫过程和核分类器两个方向进行分析。研究发现，数据增强可以通过一阶特征平均和二阶方差正则化组件来实现近似。本文还将理论应用于加速机器学习工作流，并证明其在预测变换效用和减少使用增强数据所需计算量方面具有实用价值。

Mar, 2018

多模态数据集的数值数据填补：一种基于概率最近邻核密度的方法

提出了一种数据填充算法 $k$NN$ imes$KDE：它将最近邻估计 ($k$NN) 和高斯核密度估计 (KDE) 相结合，可应对复杂原始数据结构，产生更低的数据填充误差，并提供更高似然的概率估计。

Jun, 2023

数据库内数据填充

通过在数据库系统中使用 MICE 方法，本研究实现了高效、高质量和可扩展的数据填充，充分利用计算共享和环形抽象技术以加快模型训练并在 PostgreSQL 和 DuckDB 中取得了比其他 MICE 实现和基于模型填充技术快两个数量级的计算时间，同时保持了高水平的填充质量。

Jan, 2024