Oct, 2020

训练过程中可用信息和最优表示的演化

TL;DR本文提出了关于深度神经网络所学习的可用信息的概念,并用它来研究训练过程中如何生成最佳任务表示。我们展示了使用高学习率和小批量大小的随机梯度下降算法进行训练所产生的隐式正则化在学习任务的最小充分表示方面扮演着重要角色。在产生最小充分表示的过程中,我们发现表示内容在训练期间动态变化。特别是,我们发现在最初的瞬态训练阶段编码了在语义上有意义但最终无关紧要的信息,然后在后续被丢弃。此外,我们评估了扰动训练初始阶段对学习动态和产生的表示的影响。我们在受到神经科学文献启发的感知决策任务以及标准图像分类任务中展示了这些效应。