链式法则的链接：多级熵正则化与神经网络的训练

Jun, 2019

链式法则的链接：多级熵正则化与神经网络的训练

Chaining Meets Chain Rule: Multilevel Entropic Regularization and Training of Neural Nets

Amir R. Asadi, Emmanuel Abbe

TL;DR文章提出了一种基于多级相对熵的复杂度量家族，导出了神经网络的泛化和过剩风险界，并利用多级结构解决了经验风险最小化问题，并提出了基于 Gibbs 后验分布的新的带有性能保证的神经网络训练过程。

Abstract

We derive generalization and excess risk bounds for neural nets using a family of complexity measures based on a multilevel relative entropy

neural nets multilevel relative entropy excess risk bounds empirical risk minimization gibbs posterior distribution

发现论文，激发创造

基于熵的深度神经网络引导加速收敛与提升性能

通过引入基于熵的损失项，我们提出了一种新的方法来加强神经网络学习丰富的潜在数据表示，在更少的维度上收敛于更好的测试指标，并在图像压缩和图像分类的实验中展示了其有效性。

Aug, 2023

深度神经网络模型中的熵和互信息

本文介绍了一类采用可计算的信息理论模型的深度学习模型，探讨了该模型从启发式的统计物理方法中导出熵和互信息的方法，在该方法的基础上，设计了一种实验框架用于对生成模型进行训练，并对该模型进行验证，同时研究了本模型在学习过程中的行为，得出结论：在所提出的情况下，压缩和泛化之间的关系仍然不明确。

May, 2018

将互信息与收紧泛化界限相结合

该论文介绍了一种将锁链法和互信息法结合起来得到算法相关和利用假设间的相关性的泛化界限的技术，并提供了一个实例，其中我们的界限显著优于锁链和互信息界限；作为推论，当学习算法从高概率的小假设子集中选择其输出时，紧缩了杜德利不等式。

Jun, 2018

神经符号熵正则化

本文介绍了一种统一 neuro-symbolic 和 entropy regularization 的框架，并提出了一种神经符号熵正则化损失函数，用于半监督和全监督结构化预测实验中的有效性测试。

Jan, 2022

深度学习与重整化群

本文比较分析了重整化群方法与深度机器学习方法的相似之处，讨论了多尺度纠缠重整化算法在生成式分层贝叶斯网络中的应用，并证明了该算法仅涉及概率的明确评估，消除了采样的需要。

Jan, 2013

深度神经网络的熵受限训练

该研究提出了一种神经网络压缩的通用框架，通过最小描述长度原则和熵来量化其复杂度并使用基于梯度的优化技术实现了优秀的压缩结果。

Dec, 2018

深度表征中的不变性和分解性的出现

使用统计和信息理论的已建立原则，我们展示了深度神经网络中对无关因素的不变性等同于学习表示的信息最小性，而叠加层和在训练期间注入噪声自然偏向于学习不变表示。我们进一步分解了训练过程中使用的交叉熵损失，强调了内在的过拟合项。我们提出通过两种等效方式来限制这样的项的正则化损失：一种是使用 Kullbach-Leibler 项，它与 PAC-Bayes 视角相关；另一种是使用权重中的信息作为学习模型复杂度的度量，从而为权重提供了一种新的信息瓶颈。最后，我们展示出在神经网络中学习到的表示组件的不变性和独立性在权重中的信息上限和下限是有界的，因此在训练过程中自动优化。该理论使我们能够量化和预测使用我们的正则化损失时随机标签下欠拟合和过拟合之间的尖锐相变，我们通过实验证实了这一点，并阐明了损失函数的几何形状、学习表示的不变性属性和泛化误差之间的关系。

Jun, 2017

非线性动力系统学习的度量熵极限

该研究论文主要讨论非线性动力系统学习的基本限制，以及循环神经网络在满足 Lipschitz 属性且以最佳度量 - 熵方式快速遗忘过去输入方面的应用，通过计算相关指标，证明了 RNN 可以实现指数衰减和多项式衰减 Lipschitz 的消退记忆系统。

Jul, 2024

揭示黑匣子：用重构熵预测深度神经网络的可训练性

给定神经网络的初始条件，通过在参数空间中重建输入从相邻激活层到单层辅助网络的级联来预测深层前馈神经网络的可训练区域，从而显著降低整体训练时间，并确定信息流动与深度神经网络的可训练性之间的具体联系。

Jun, 2024

神经熵估计：一种更快的互信息估计方法

提出了一种更快的方法，称为互信息神经熵估计（MI-NEE），其将互信息估计变为估计熵的过程，通过使用自定义参考分布和选择均匀分布作为参考分布来实现更快的收敛。

May, 2019