ICMLJun, 2021

检测和应对分布偏移下的伪特征

TL;DR本文主要探讨机器学习中机器如何学习到能够捕捉输入特征与输出标签之间因果关系的鲁棒性表征,以及在有偏或有限数据集上可能存在的虚假相关性。提出了一种基于最小充分统计量的鲁棒表征和虚假表征的信息理论概念,并基于分组分布式鲁棒优化方法来缓解输入分布偏移的问题,同时通过实验展示该方法在图像和语言任务中具有显著的鲁棒性优势。