Jun, 2024

缺失偏移下的稳健预测

TL;DR预测表现受到缺失协变量的影响,处理缺失数据的方法选择会极大地影响模型性能。研究发现,具有信息性缺失值的模型可以实现最佳的预测性能,但实际部署后缺失值产生的原因可能会发生变化,此时基于缺失的条件概率在目标数据中会有所不同。因此,如果缺失值的产生是不可忽略的,Bayes 预测器可能会因为缺失值的变化而有所改变。然而,我们的实证研究发现,在高度信息化的情况下,忽略缺失值是最有益的。