Feb, 2020

最优输运用于缺失数据填充

TL;DR本研究使用最优传输距离量化了两个随机数据集共享相同分布的假设,并将其转化为缺失数据值的损失函数。我们提出了使用端到端学习最小化这些损失的实用方法,并在 MCAR,MAR 和 MNAR 设置中使用 UCI 存储库中的数据集对我们的方法进行了评估。这些实验表明,即使缺失值的百分比很高,在 OT-based 方法在缺失数据方面与最先进的缺失数据值的整合方法相匹配或优于之前的结果。