- 基于混合融合的多序列脑 MRI 综合合成统一框架
提出了一种名为混合融合生成对抗网络(HF-GAN)的新型统一框架,通过多模式磁共振成像,使得通过补充信息来提供可靠的临床应用诊断。实验证明,该方法在数据插补任务中表现出优异的性能,并且比现有方法在定量和定性比较方面更加优越。
- 追求更好分类的数据插补:一种监督式基于核函数的方法
提出一种新的框架,通过利用监督信息来完成缺失数据,使其有利于分类,并在四个真实数据集上证明了该方法的优越性能。
- 基于扩散的不完整欧几里得距离矩阵修复方法对分数布朗运动生成的轨迹
使用扩散概率模型测试对损坏图像数据集的不完整欧几里得距离矩阵进行数据补全,研究发现条件扩散生成可以稳定地重现不同 H 指数的缺失 fBm 分布距离的统计特性,并且扩散模型的补全方法在与数据库搜索不同的情况下表现出不同的定性行为,最后运用 H - 负二项随机伽玛马尔科夫过程用于异质超离散计数时间序列
提出了一种负二项式随机化的伽马马尔科夫过程来建模计数数列的转换结构和爆发性动态,从而改善了动力学系统的预测性能和推理算法的快速收敛,同时估计了基于因子结构和图结构的转换动态以获得更可解释的潜在结构,比相关模型更好地填补了缺失数据和预测未来观 - 医学黑暗物质中隐藏着什么?在医疗实践中学习丢失的数据
研究聚焦于统计方法和机器学习进行缺失数据理解、解释和数据填充,基于儿科急诊数据和英国最大的创伤伤害数据库的数据,研究发现缺失数据非随机,与医疗专业实践模式相关性高,得出使用 1 近邻(1NN)填充方法最佳,表明了临床决策常见的模式。
- 多线性核回归与流形学习中的插补
该论文介绍了一种新颖的非参数框架用于数据插值,称为多线性核回归和流形假设下的插值(MultiL-KRIM)。
- SAVAE:利用变分贝叶斯自编码器进行生存分析
通过使用深度学习技术中的变分自动编码器,本研究提出了一种名为 SAVAE 的新方法,用于生存分析及相关领域,能够适应复杂、高维、异构以及包含缺失和截尾数据的场景,并表现出稳健性和稳定性。同时,该方法还能够进行数据插补,并通过潜变量推断生成合 - 打开黑匣子:利用建筑物理学洞察实现内在可解释的能源数据填补模型
建筑能源建模中经常观察到的缺失数据需要用先进的数据驱动解决方案来反映这些异常的非线性行为。本文提出了在商业建筑中使用基于物理信息的去噪自编码器 (PI-DAE) 进行缺失数据填补的方法,并通过引入物理知识到网络中实现了更可解释的预测,从而促 - Xputer:利用 NMF,XGBoost 和简化的 GUI 体验填补数据差距
Xputer 是一种新颖的插补工具,通过将 Non-negative Matrix Factorization (NMF) 与 XGBoost 的预测优势巧妙地结合,以确保数据的完整性和提取有意义的见解。
- 更公平胜过抱歉:针对公平 GNN 的对抗性缺失数据填充
该论文介绍了在缺失保护属性情况下学习公平图神经网络(GNNs)的问题,并提出了一种称为 BFtS 的公平缺失数据插值模型,通过两个对立方与公平 GNN 合作,BFtS 通常实现了更好的公平性和准确性的折衷。
- 多视图变分自动编码器在非靶向代谢组学中的缺失值填补
本研究提出了一种新的方法,利用全基因组测序(WGS)数据和参考代谢物对未知代谢物进行插补。该方法通过多视图变分自编码器来联合建模负担得分、多基因风险得分(PGS)和连锁不平衡(LD)剪辑单核苷酸多态性(SNPs),以进行特征提取和代谢组学数 - ICLR异步图生成器
我们介绍了一种新颖的异步图生成器(AGG),它是一种多通道时间序列的图神经网络体系结构,通过将观测值建模为动态图上的节点,并通过传导节点生成来执行数据插补。AGG 在节点中直接使用可学习的嵌入表示测量值、时间戳和元数据,然后利用注意力来学习 - 大型语言模型作为数据预处理器
此研究拓展了大型语言模型(LLMs)的应用,探索了它们在数据预处理中的潜力,包括错误检测、数据插补、模式匹配和实体匹配任务。我们提出了一个基于 LLMs 的框架,用于改进模型的性能和效率。实验结果表明 LLMs 在数据预处理中具有巨大潜力。
- FOSA:用全信息最大似然(FIML)优化的自注意力填补缺失数据
该研究论文介绍了 FIML 优化的自注意力(FOSA)框架,它将全信息最大似然(FIML)估计的优点与自注意力神经网络的能力相结合,以更有效地解决数据插补中的缺失值问题。通过综合实验,论文表明 FOSA 在准确性、计算效率和适应不同数据结构 - 基于扩散的 Microsoft 365 时间序列数据填充
通过数据插值来提高数据质量,以改善下游故障预测任务的性能。
- 多模态数据集的数值数据填补:一种基于概率最近邻核密度的方法
提出了一种数据填充算法 $k$NN$ imes$KDE:它将最近邻估计 ($k$NN) 和高斯核密度估计 (KDE) 相结合,可应对复杂原始数据结构,产生更低的数据填充误差,并提供更高似然的概率估计。
- 基于协调数据孤岛的联邦学习
本文提出了一个面向端到端联合机器学习和数据集成的体系结构愿景,为数据管理信息系统和机器学习交叉研究带来重要启示,以解决不同站点之间存在的数据集成和数据格式一致性问题。
- 基于时空依赖的交通数据插值的深度学习框架
本文研究了如何使用数据填充的方法处理由于交通网络动态变化引起的多变量时间序列中缺失的时空数据,并就现有方法存在的问题提出了改进方案。
- 基于图拉普拉斯金字塔网络的缺失数据插值
本文从 Dirichlet 能量的角度分析了 “草稿 - 细化” 方法,提出了一种名为 Graph Laplacian Pyramid Network 的新型架构方法,并在多个真实数据集上进行了广泛的实验,表现出优越的性能。
- AAAI迭代图重建进行的数据填充
本文提出了一种迭代图生成和重构框架用于缺失数据插补,引入了 “朋友网络” 概念以表示样本之间的不同关系,并通过端到端朋友网络重建解决在缺失数据情况下生成准确的朋友网络,实现了数据的不同信息传递。在 8 个基准数据集上的实验结果表明,相比其他