Jun, 2017

深度表征中的不变性和分解性的出现

TL;DR使用统计和信息理论的已建立原则,我们展示了深度神经网络中对无关因素的不变性等同于学习表示的信息最小性,而叠加层和在训练期间注入噪声自然偏向于学习不变表示。我们进一步分解了训练过程中使用的交叉熵损失,强调了内在的过拟合项。我们提出通过两种等效方式来限制这样的项的正则化损失:一种是使用 Kullbach-Leibler 项,它与 PAC-Bayes 视角相关;另一种是使用权重中的信息作为学习模型复杂度的度量,从而为权重提供了一种新的信息瓶颈。最后,我们展示出在神经网络中学习到的表示组件的不变性和独立性在权重中的信息上限和下限是有界的,因此在训练过程中自动优化。该理论使我们能够量化和预测使用我们的正则化损失时随机标签下欠拟合和过拟合之间的尖锐相变,我们通过实验证实了这一点,并阐明了损失函数的几何形状、学习表示的不变性属性和泛化误差之间的关系。