缺失数据:神经网络和期望最大化技术的比较
通过使用生成模型(高斯混合模型)计算观察变量给定缺失变量的条件期望值来解决数据矩阵中缺少条目的问题,并利用基于生成模型的算法来填充缺失值,以提高分类学习算法的性能。
Sep, 2012
我们提出了一种理论上合理的机制,通过神经网络处理缺失数据,即在第一隐藏层中将典型神经元的响应替换为它的期望值,从而实现各种类型的网络上的处理,不需要完整的数据进行训练,并且在各种不完整数据处理方法中表现出更好的结果。
May, 2018
通过使用缺失指标的新型非线性,本文提出了一种名为 NeuMiss 网络的新颖结构,该结构可解决缺失信息带来的挑战,其计算复杂度和参数量不受缺失数据模式数量的影响,并具有良好的预测精度和统计效率。
Jul, 2020
本研究提出一个基于量子算法的 EM 算法版本,用于解决高维 Gaussian 混合模型拟合问题,相较于传统算法有更快的收敛速度和更高的精度,并且能够推广到指数族分布,提供同样的计算保障。
Aug, 2019
本研究提出了一种对待处理缺失数据的机器学习模型建模的对比学习框架,该框架通过学习不完整样本与其完整对应物之间的相似性和其他样本之间的不相似性来解决现有方法中的三个主要缺点,并引入了可解释技术来可视化学习过程和诊断模型状态,结果表明该方法在不需要填充缺失值的情况下具有高预测准确性和模型可解释性。
Sep, 2023
本文提出了一种统一的方法,以验证数据插补对于学习准确模型是否必要,并在插补不必要的情况下返回准确模型。通过我们的算法,可以显著减少数据插补所需的时间和工作量,并且不会带来明显的计算负担。
Feb, 2024
本文提出了一个新的算法 MISNN,用于处理高维缺失数据的多重插补问题,该算法借助于神经网络的逼近能力,将特征选择嵌入 MI 模型中,经过实验证明在插补准确度、统计一致性和计算速度等方面优于现有的 Bayesian Lasso 和矩阵补全等最新算法。
May, 2023
本文介绍了一种模型和代理的基于矩阵补全的方法来处理丢失而非随机的数据,该方法在处理不同类型的丢失机制时具有稳健性和计算效率,并通过一个实际案例从一个受伤人员数据库中预测是否给患有创伤性脑损伤的患者输注氨甲环酸以控制过度出血的情况。
Dec, 2018
训练具有缺失条目的预测模型时,我们可以利用两阶段自适应优化问题来处理缺失数据,并提出了一种新类模型,即自适应线性回归模型,其中回归系数根据观测特征进行自适应。我们展示了一些自适应线性回归模型等价于同时学习一个填充规则和一个下游线性回归模型,而不是顺序学习。我们利用这种联合填充 - 回归解释来推广我们的框架到非线性模型。在数据不随机缺失的情况下,我们的方法可以提高 2-10% 的样本外准确率。
Feb, 2024