Oct, 2023

深度神经网络的可预测外推倾向

TL;DR神经网络预测在面对越来越多的分布外数据时,往往呈现出不可预测和过度自信的特点。然而,我们的研究发现,与其任意拟合,神经网络预测往往趋向于一个恒定值,并且这个值通常接近于最优恒定解(OCS),即在没有观察到输入时最小化训练数据平均损失的预测。我们在 8 个包含不同分布转移的数据集(包括 CIFAR10-C 和 ImageNet-R,S)、不同损失函数(交叉熵、均方误差和高斯负对数似然)以及不同架构(CNN 和转换器)上展示了这种现象。此外,我们提出了这种行为的解释,首先通过实证研究验证,然后在简化的深度均质网络和 ReLU 激活的环境中进行理论研究。最后,我们展示了如何在面对分布外输入时利用我们的发现在实践中实现风险敏感的决策。