- 从 Wasserstein 梯度流的角度重新思考数值制表数据补全的扩散模型
在数值表格数据集领域,我们引入了一种被称为 KnewImp 的新的原则方法,它通过 Wasserstein 梯度流框架以及重现内核希尔伯特空间,解决了扩散模型在缺失数据插补中存在的不准确插补和训练困难等问题,并通过广泛实验证明了该方法明显优 - 遮蔽语言建模变为表格数据合成的条件密度估计
使用条件分布估计方法生成混合类型表格数据的合成数据,并利用该方法进行数据合成与缺失数据填充实验。
- 释放扩散模型在不完整数据填充方面的潜力
DiffPuter 是一种迭代方法,利用期望最大化算法和扩散模型进行缺失数据填补,其通过将缺失数据视为可在模型训练过程中更新的隐藏变量,并将缺失数据填补任务作为 EM 问题来处理。DiffPuter 通过扩散模型来学习观测到的数据和当前估计 - DPGAN:用于图中缺失数据填补的双路径生成对抗网络
本文提出了一种名为 Dual-Path Generative Adversarial Network (DPGAN) 的新框架,用于同时处理缺失数据和避免过度平滑问题,在广泛的基准数据集上进行了全面的实验证明,DPGAN 始终能与现有的最先 - 高斯过程潜变量模型中的模型崩溃预防
本文通过理论分析证明了投影方差对模型崩溃的影响,并通过集成频谱混合核和可微分的随机傅里叶特征核逼近解决了内核灵活性不足导致的模型崩溃问题。提出的 GPLVM 模型在各种数据集上都取得了优异的表现,在信息丰富的潜在表示和缺失数据插补方面超越了 - 非参数化端到端概率分布式发电产量预测考虑缺失数据插补
本论文介绍了一种非参数的端到端方法,用于在包括缺失数据插补的情况下对分布式可再生能源生成输出进行概率预测。
- 基于细粒度语义和人工智能驱动的流程的缺失数据填补方法在破产预测中的应用
基于粗糙集计算的数据填充方法用于银行破产预测。该方法通过特征语义和可靠观测来预测缺失值,并在层次上进行插补,从而有效解决了高维度数据和类别不平衡等问题。
- AAAI基于可穿戴设备的应用中的表示学习及缺失数据案例研究
穿戴设备中的缺失数据填充问题的研究,通过比较表示学习和统计方法,发现变化频繁的信号可以使用 Transformer 模型进行更准确的填充,为解决穿戴设备中的数据缺失问题提供了启示。
- AI-Augmented 调查:运用大型语言模型对全国代表性调查的意见预测
本文研究了利用大型语言模型(LLMs)来增强调查的三种不同应用程序:缺失数据插补,回溯预测和零 - shot 预测。该论文提出了一个新的方法论框架,其中包含民意调查问题,个人信念和时间背景的神经嵌入,以个性化 LLMs 的意见预测。该研究表 - Fed-MIWAE: 基于深度生成模型的不完整数据联合修复
本研究提出了一种基于联邦模型的更一致的数据标准化方法,并提出了 Fed-MIWAE 方法,这是一种用于缺失数据插补的联合学习方法,使用变分自编码器和多次插补实现,能在联邦学习情景下处理来自多个不同子数据集的高度异构的数据分布。该方法可以实现 - EGG-GAE: 可扩展的图神经网络用于表格数据填充
本文提出了一种基于 EdGe(隐式图形表示)图自编码器的缺失数据插补方法,其可处理更大的数据集且能够自动推断每层最佳的联通性,同时在基准测试和基线系统中均获得了重大的改进。
- KDD时变图信号分解
提出了一种基于字典的时间图信号分解框架(TGSD),可以处理来自真实世界中的多个不同领域的时间序列数据, 并且通过结合时间和图形字典来学习数据的联合编码,实现了丢失数据的处理和提高时间插值性能.
- 一种非凸低秩张量补全模型用于时空交通数据插值
本文提出了一种用于解决空间时间交通数据中缺失数据问题的低秩张量完成方法,并定义了一个新的截断核范数,利用交替方向乘子法(ADMM)的框架提出了一种有效的算法来获得每个变量的最优解。数值实验表明,所提出的方法优于许多最先进的缺失数据模型。
- 对抗训练图形卷积网络实现缺失数据插值
本论文提出了一种更通用的缺失数据填充 (MDI) 框架,使用图神经网络 (GNNs) 建立自编码器与边表征向量,通过多个损失函数提升性能。本方法在大规模实验中表现优于现有 MDI 方法,在大量缺失值时尤为明显。
- CVPRCollaGAN: 遗漏图像数据填补的协同生成对抗网络
本文提出了一种基于协同生成对抗网络 (CollaGAN) 的缺失图像数据填充的框架,该框架将图像填充问题转化为多域图像到图像的翻译任务,以便通过单个生成器和判别器网络成功地使用剩余的干净数据集估计缺失数据,实验证明与现有竞争方法相比,Col - 利用深度潜变量模型的精确似然
本文探讨了深度潜变量模型中精确似然的一般性质及其在实践中的应用,特别是关于参数估计和缺失数据插补。作者介绍了一种基于条件似然的算法,用于深度潜变量模型中的缺失数据插补,并在多个数据集中对比了该算法和通常用于 DLVMs 的插补方案,结果表明 - 从完整和不完整数据集中高效学习有界树宽贝叶斯网络
本文提出一种新的 k-MAX 算法用于学习具有有界三角形宽度的贝叶斯网络,改进了数据不完全的结构 EM 算法,进而实现了缺失数据的填充。该算法可以在短时间内获得和竞争者相同的缺失数据恢复精度,并且具有线性最坏时间复杂度和易于并行化等优点。
- NIPS基于解缠识别和非线性动力学模型的无监督学习
本文介绍了一种用于无人监督学习序列数据的框架 ——Kalman 变分自编码器,该框架在描述视频中的动态变化时不使用构成其帧的像素空间,而是用一个描述其物体非线性动态的隐藏空间。该模型在各种模拟的物理系统视频中进行端到端训练,在生成和缺失数据 - 使用双重随机 MCMC 学习深度生成模型
本文介绍了倍增随机梯度 MCMC 这一简单通用的方法,用于在折叠的连续参数空间中对深度生成模型进行(近似)贝叶斯推理。我们的方法不仅适用于密度估计和数据生成的任务,还可以用于缺失数据的填充,且在性能方面优于许多现有的竞争对手。
- 流式大数据矩阵和张量的子空间学习和插补
论文提出了一种基于 rank minimization 算法的在线优化方法,通过追踪低维度子空间、揭示潜在结构以及使用核范数正则化来实现低维矩阵数据和低秩张量数据的缺失值插补,模拟测试显示该方法在数据明显含噪、不完整的情况下表现突出。