- 时域多尺度稀疏自注意力在体能活动数据填补中的应用
研究通过一种基于领域知识的稀疏自注意力模型,对缺失的步数数据进行填补,以衡量该模型相对于基准模型的性能并进行消融研究。
- Hinge-FM2I:一种使用图像修复技术插值非多元时间序列中缺失数据的方法
本文提出了一种处理单变量时间序列数据中缺失数据值的新方法 Hinge-FM2I,通过选择最准确的预测来解决数据质量问题,实验证明 Hinge-FM2I 在处理缺失数据方面明显优于线性 / 样条插值、K 最近邻算法(K-NN)和 ARIMA - 缺失值处理的简单方法:Knockout
通过输入掩蔽的方式,我们提出了一种高效的方法来同时学习使用完整输入的条件分布和使用部分输入的边缘分布,从而帮助单个模型有效地学习条件分布和边缘分布。
- 时间序列表示模型
我们提出了一种基于内省的时间序列分析的新架构概念,其中关键是自监督预训练的时间序列表示模型(TSRM),可以在自动化和资源高效的方式下进行定制和微调,以实现特定任务,如预测和插补。我们的架构通过灵活和分层的表示学习过程对抗缺失数据和异常值, - 解码运动:多智能体统一轨迹生成模型
通过引入嵌入于 Transformer 编码器中的 Ghost Spatial Masking 模块进行空间特征提取,将 State Space Models (SSMs) 扩展为双向时间 Mamba 以捕捉时间依赖性,以及结合双向时间比例 - 一种无参数的缺失数据聚类算法
在真实世界中,缺少数据集普遍存在。现有的用于缺失数据集的聚类算法首先对缺失值进行插补,然后进行聚类。然而,插补和聚类过程都需要输入参数,太多的输入参数会增加获得准确聚类结果的难度。虽然一些研究表明决策图可以替代聚类算法的输入参数,但当前的决 - 处理特殊缺失机制下的缺失数据综述
在数据科学中,缺失数据是一个重要的挑战,它对决策过程和结果产生影响。本文回顾了现有文献对处理缺失数据的方法进行了比较和对比,揭示了现有文献中的研究空白,并提出了未来研究的潜在方向。这个综述将帮助数据分析人员和研究人员在实际问题中采用和推广处 - 多模态 VAEs 中的统一多样性:改进的表示学习
用于多模态数据的变分自编码器在数据分析中具有许多任务的潜力,如表示学习、条件生成和插补。我们通过用软约束替换这些硬约束,提出了一种新的专家混合先验方法,软指导每个模态的潜编码向共享的聚合后验靠近,从而得到一个更好的潜编码表示,并提高了对缺失 - 统计学习中的确定性和近似确定性模型
本文提出了一种统一的方法,以验证数据插补对于学习准确模型是否必要,并在插补不必要的情况下返回准确模型。通过我们的算法,可以显著减少数据插补所需的时间和工作量,并且不会带来明显的计算负担。
- 利用缺失数据进行结构学习的最优传输
使用基于最优传输的打分算法,从缺失数据中学习因果结构,通过广泛的模拟和实验,论文证明了该方法在各种模拟和真实数据实验中比基线更有效地恢复了真实的因果图。
- 时序解缠对比扩散模型的时空填补
利用趋势和季节信息的条件特征和对比学习,C$^2$TSD 能更好地生成稳定和泛化性能强的模型,在三个真实数据集上的广泛实验显示其优越性能。
- 不完整的多视图数据的统一视图填补和特征选择学习
多视图无监督特征选择方法 UNIFIER 能够处理不完整的多视图数据,并通过学习相似性诱导图动态恢复缺失视图,提高特征选择性能。
- 使用原型的跨列信息进行不规则采样时间序列的插补
PRIME 是一个整合了序列内和序列间信息的原型循环插补模型,用于不规则采样的时间序列中的缺失值插补。实验证明,PRIME 相对于现有模型在均方误差上提升了最高达 26%。
- 一种用于不完整数据的新型特征选择框架
提出了一种考虑特征重要性的新型不完整数据特征选择框架,通过多个迭代阶段的缺失值插补和特征重要性学习,实验结果表明该方法明显优于其他方法。
- GATGPT:基于图注意力网络的预训练大型语言模型用于时空填补
在本研究中,我们提出了一种创新方法 GATGPT,它将已训练好的大型语言模型(LLM)与图注意机制相结合,用于时空插补。我们保持大部分 LLM 参数不变,以利用现有知识学习时间模式,并针对不同应用程序调整上层的微调。图注意组件增强了 LLM - 利用扩散和基于流的梯度增强树生成和填补表格数据
该论文提出了一种利用基于评分的扩散和条件流匹配生成和填补混合类型(连续和分类)表格数据的新方法。相对于依赖神经网络作为函数近似器的先前工作,我们使用了 XGBoost,一种流行的梯度提升树(GBT)方法。我们的方法在多个数据集上经验性地表明 - 面向较好的缺失数据建模:一种基于对比学习的可视分析视角
本研究提出了一种对待处理缺失数据的机器学习模型建模的对比学习框架,该框架通过学习不完整样本与其完整对应物之间的相似性和其他样本之间的不相似性来解决现有方法中的三个主要缺点,并引入了可解释技术来可视化学习过程和诊断模型状态,结果表明该方法在不 - 利用原型患者表征借助特征缺失感知校准来缓解电子病历数据稀疏性问题
通过间接插补和特征可信度学习,我们的研究提出了一种改进的电子健康记录 (Electronic Health Record) 预测模型,能够更准确地预测住院病人的死亡情况,此模型在 MIMIC-III 和 MIMIC-IV 数据集上实验证明优 - 基于神经网络的时间序列数据中缺失值填补方法的开发 —— 数据 Wig 再利用
通过修改 DataWig 方法,本研究开发了 tsDataWig(时间序列 DataWig),能够直接处理时间变量的值并填补复杂时间序列数据中的缺失值。通过使用模拟和三个不同的复杂实际时间序列数据集,证明了 tsDataWig 在时间序列数 - 缺失非随机数据的深度生成填补模型
数据分析中,常常遇到缺失非随机(MNAR)的问题,本文从新的视角重新考虑 MNAR 问题,提出了一种基于生成模型的联合概率分解方法,并成功应用于数据的插补和遗漏掩码的重建。实验证明,我们的方法在 MNAR 问题上超过了现有的基线模型,并且在