Mar, 2024

复杂性的重要性:在伪相关存在的情况下的特征学习动态

TL;DR我们提出了一个理论框架和相关的合成数据集,以布尔函数分析为基础,允许对虚假特征相对复杂性和与标签相关性的相对强度进行细粒度控制,以研究虚假相关下特征学习的动态。我们的设置揭示了几个有趣的现象:(1)更强的虚假相关或更简单的虚假特征会减缓核心特征的学习速率,(2)虚假特征和核心特征的学习阶段并不总是分离的,(3)即使在核心特征完全学习后,虚假特征也不会被遗忘。我们的发现证实了重新训练最后一层以消除虚假相关的成功,并且确定了利用早期学习虚假特征的常用去偏算法的局限性。我们通过针对使用具有一层隐藏层 ReLU 网络学习 XOR 特征的情况进行理论分析来支持我们的实证发现。