Jun, 2024

错误数据上的准确度:关于嘈杂数据对于超出分布泛化的陷阱

TL;DR通过研究机器学习中的 “在线准确性” 现象,我们发现噪声数据和干扰特征会破坏准确性与超参数和数据配置之间的正相关关系,导致准确性与超参数和数据配置之间出现负相关关系。这种现象也可能出现在含有假特征的情况下,假特征会凸显出复杂信号特征,导致大量干扰特征空间。此外,将数据扩展到更大规模并不能减轻这种不良行为,甚至可能加剧它。我们通过线性分类模型在真实和合成数据集上进行验证,并对噪声数据和干扰特征的条件下的 Out-of-distribution (OOD) 错误证明了下界。