Sep, 2023

ReMasker: 用蒙面自编码填补表格数据

TL;DRReMasker是一种通过扩展遮罩自编码框架来填补表格数据中缺失值的新方法,通过在缺失值之外再随机地“重新遮罩”一组值,通过重构这个重新遮罩的组合来优化自编码器,然后应用训练好的模型来预测缺失值;通过对基准数据集的广泛评估,我们发现ReMasker在各种不完整数据设置下在填补准确性和效用方面与最先进的方法相媲美甚至超越,而且性能优势通常随着缺失数据比例的增加而增加。我们进一步探索了其有效性的理论依据,表明ReMasker倾向于学习表格数据的缺失不变表示。我们的发现表明,遮罩模型代表了在表格数据填补方面进一步研究的有前景的方向。代码已公开提供。