深度回归表示学习与拓扑
通过研究使用信息瓶颈功能最小化来训练深度神经网络进行分类的理论论文,我们发现这种优化问题存在严重问题,方法包括使用随机神经网络、更加稳定的代价函数和设计直接实现所需属性的潜在表示的正则化项。
Feb, 2018
使用统计和信息理论的已建立原则,我们展示了深度神经网络中对无关因素的不变性等同于学习表示的信息最小性,而叠加层和在训练期间注入噪声自然偏向于学习不变表示。我们进一步分解了训练过程中使用的交叉熵损失,强调了内在的过拟合项。我们提出通过两种等效方式来限制这样的项的正则化损失:一种是使用 Kullbach-Leibler 项,它与 PAC-Bayes 视角相关;另一种是使用权重中的信息作为学习模型复杂度的度量,从而为权重提供了一种新的信息瓶颈。最后,我们展示出在神经网络中学习到的表示组件的不变性和独立性在权重中的信息上限和下限是有界的,因此在训练过程中自动优化。该理论使我们能够量化和预测使用我们的正则化损失时随机标签下欠拟合和过拟合之间的尖锐相变,我们通过实验证实了这一点,并阐明了损失函数的几何形状、学习表示的不变性属性和泛化误差之间的关系。
Jun, 2017
该研究旨在证明具有大深度和 L2 正则化的 DNN 在学习输入时会产生 “瓶颈结构”(低维表示),并介绍了一种衡量网络内在维度和复杂性 / 不规则性之间平衡的方法。
May, 2023
研究表明,transformers 在蛋白质语言任务和图像重建任务中的表示以非常相似的方式演化,从而呈现出数据流形在隐藏层中的几何和统计特性,而数据流形的语义结构在第一阶段触发。基于这些观察结果,建议使用内在维度作为无监督代理,以确定下游学习任务更合适的层次。
Feb, 2023
通过研究信息瓶颈 (IB) 目标函数中的多个相变,我们引入了 IB 相变的定义作为 IB 损失函数景观的定性变化,并提出了一个公式,为 IB 相变提供了实际条件,从而预测了数据集的阶段性变化和分类难度。
Jan, 2020
信息瓶颈是一种信息论表示学习原理,旨在学习一个最大压缩的表示,以尽可能保留关于标签的信息。本文研究了信息瓶颈和确定性信息瓶颈在迁移学习情景中的泛化能力,并提出了一种弹性信息瓶颈方法,通过在信息瓶颈和确定性信息瓶颈正则化之间插值来平衡源泛化差距和表示不一致性,实验证明该方法在领域自适应方面表现更好。
Nov, 2023
本文提出了一种基于信息瓶颈原理的无监督子图信息瓶颈(USIB)的图解释方法,通过理论分析表明图信息建模表示的精确性与鲁棒性有助于解释性子图的可靠性。实验结果表明所提出的模型优于现有模型。
May, 2022
该论文研究神经网络层内部如何保留拓扑特征。使用拓扑数据分析技术,计算了一个简单前馈神经网络的层表征在类克莱因瓶扭结构变化下的拓扑特征。在较早层,网络看起来近似于同胚,但在较深层时数据的拓扑结构被明显更改,导致持久同调无法计算这些特征。但在具有双射激活函数的网络中,类似的拓扑特征似乎可以更持久地存在。
Jul, 2022
使用信息瓶颈(IB)原理分析深度神经网络(DNN)的信息流,并得到 DNN 的理论极限及有限样本泛化的上限,同时探讨了网络的优化模型,层数和特征 / 连接与信息瓶颈权衡中的分叉点的关系,其中对应了网络层级结构上的结构相变。
Mar, 2015
通过对参数的演化,我们全面分析了深度神经网络的学习动态,发现存在三个阶段:接近恒定的重建损失、下降和上升。我们还通过经验实证建立了数据模型,并对单层神经网络证明了阶段的存在。我们的工作为迁移学习提供了新的最佳实践:通过实验证明预训练的分类器在性能达到最优之前应该停止。
Dec, 2023