深度神经网络中信息存储的位置在哪里?
通过信息论分析深度学习及神经网络,研究在训练过程中神经网络获取的信息,提出了限制权值中标签噪声信息的学习算法,并提出了样本信息度量概念,探究了神经网络在非典型、模棱两可或属于代表性较弱群体的情况下的行为,导出了非平凡的泛化表现界限,并通过知识蒸馏研究,证明了数据和标签复杂度在泛化中的重要作用。该论文深入研究了神经网络的泛化机制,有益于更深层次地理解此领域的相关知识。
Jun, 2023
本研究通过信息平面可视化深度神经网络,发现在标准深度学习中,大部分训练周期都用于对输入进行压缩以生成有效表示,而非适应标签,当训练误差变小并且随机梯度下降下降进入随机扩散阶段时,表征压缩阶段开始。隐藏层的加入可以极大的缩短训练时间。
Mar, 2017
本文提出了一种度量深度神经网络在训练过程中因果结构的度量方法,即有效信息(EI),用于评估每个层的因果影响节点和边缘在其下游目标上的度量。通过分解 EI 以检查每个层的敏感性、退化性和整合信息量,可以在 “因果平面” 上可视化每个层次的连接方式如何随时间变得更加敏感或退化,以及集成如何在训练期间改变。结果有助于理解深度神经网络的泛化能力,并为使 DNN 具有更高的泛化性和可解释性提供基础工具。
Oct, 2020
本文介绍了一类采用可计算的信息理论模型的深度学习模型,探讨了该模型从启发式的统计物理方法中导出熵和互信息的方法,在该方法的基础上,设计了一种实验框架用于对生成模型进行训练,并对该模型进行验证,同时研究了本模型在学习过程中的行为,得出结论:在所提出的情况下,压缩和泛化之间的关系仍然不明确。
May, 2018
研究提出了一种针对神经网络的信息定义,可以测量样本对模型训练的影响程度和其计算函数的影响程度,利用线性网络提供了这些量的高效近似值并应用于数据集的总结、不足采样类别的分析、不同数据源信息量的比较和识别对抗样本等多个问题。
Jan, 2021
使用统计和信息理论的已建立原则,我们展示了深度神经网络中对无关因素的不变性等同于学习表示的信息最小性,而叠加层和在训练期间注入噪声自然偏向于学习不变表示。我们进一步分解了训练过程中使用的交叉熵损失,强调了内在的过拟合项。我们提出通过两种等效方式来限制这样的项的正则化损失:一种是使用 Kullbach-Leibler 项,它与 PAC-Bayes 视角相关;另一种是使用权重中的信息作为学习模型复杂度的度量,从而为权重提供了一种新的信息瓶颈。最后,我们展示出在神经网络中学习到的表示组件的不变性和独立性在权重中的信息上限和下限是有界的,因此在训练过程中自动优化。该理论使我们能够量化和预测使用我们的正则化损失时随机标签下欠拟合和过拟合之间的尖锐相变,我们通过实验证实了这一点,并阐明了损失函数的几何形状、学习表示的不变性属性和泛化误差之间的关系。
Jun, 2017
本文从信息论的角度出发,提出了一种理论和系统性的方法,详细介绍了深度学习中数据的流动和自编码器的设计,探究了互信息在描述数据学习上的重要性,并针对均方误差的训练提出了三个基本特性,这对自编码器的最优设计、替代前馈训练方法的设计、以及泛化问题有直接的影响。
Mar, 2018
此研究探讨神经网络采用信息瓶颈理论通过压缩神经网络表示来提高泛化性能。研究结果表明,激活函数的饱和状态并非压缩的必要条件。但是 L2 正则化可以显著增加压缩,同时防止过拟合。在多次正则化后,只有最后一层的压缩与泛化性能呈正相关关系。
Feb, 2019
使用信息瓶颈(IB)原理分析深度神经网络(DNN)的信息流,并得到 DNN 的理论极限及有限样本泛化的上限,同时探讨了网络的优化模型,层数和特征 / 连接与信息瓶颈权衡中的分叉点的关系,其中对应了网络层级结构上的结构相变。
Mar, 2015
研究发现,神经网络在存在噪声或不正确标签的情况下,往往会记住有关噪声的信息。为了减少这种记忆现象,提高泛化能力,本文提出使用一个辅助网络来训练,并利用 Shannon 互信息量化记忆的信息量。在 MNIST、CIFAR-10、CIFAR-100 和 Clothing1M 等数据集上验证了该算法的有效性。
Feb, 2020