链式法则的链接:多级熵正则化与神经网络的训练
通过引入基于熵的损失项,我们提出了一种新的方法来加强神经网络学习丰富的潜在数据表示,在更少的维度上收敛于更好的测试指标,并在图像压缩和图像分类的实验中展示了其有效性。
Aug, 2023
本文介绍了一类采用可计算的信息理论模型的深度学习模型,探讨了该模型从启发式的统计物理方法中导出熵和互信息的方法,在该方法的基础上,设计了一种实验框架用于对生成模型进行训练,并对该模型进行验证,同时研究了本模型在学习过程中的行为,得出结论:在所提出的情况下,压缩和泛化之间的关系仍然不明确。
May, 2018
该论文介绍了一种将锁链法和互信息法结合起来得到算法相关和利用假设间的相关性的泛化界限的技术,并提供了一个实例,其中我们的界限显著优于锁链和互信息界限;作为推论,当学习算法从高概率的小假设子集中选择其输出时,紧缩了杜德利不等式。
Jun, 2018
本文介绍了一种统一 neuro-symbolic 和 entropy regularization 的框架,并提出了一种神经符号熵正则化损失函数,用于半监督和全监督结构化预测实验中的有效性测试。
Jan, 2022
本文比较分析了重整化群方法与深度机器学习方法的相似之处,讨论了多尺度纠缠重整化算法在生成式分层贝叶斯网络中的应用,并证明了该算法仅涉及概率的明确评估,消除了采样的需要。
Jan, 2013
使用统计和信息理论的已建立原则,我们展示了深度神经网络中对无关因素的不变性等同于学习表示的信息最小性,而叠加层和在训练期间注入噪声自然偏向于学习不变表示。我们进一步分解了训练过程中使用的交叉熵损失,强调了内在的过拟合项。我们提出通过两种等效方式来限制这样的项的正则化损失:一种是使用 Kullbach-Leibler 项,它与 PAC-Bayes 视角相关;另一种是使用权重中的信息作为学习模型复杂度的度量,从而为权重提供了一种新的信息瓶颈。最后,我们展示出在神经网络中学习到的表示组件的不变性和独立性在权重中的信息上限和下限是有界的,因此在训练过程中自动优化。该理论使我们能够量化和预测使用我们的正则化损失时随机标签下欠拟合和过拟合之间的尖锐相变,我们通过实验证实了这一点,并阐明了损失函数的几何形状、学习表示的不变性属性和泛化误差之间的关系。
Jun, 2017
该研究论文主要讨论非线性动力系统学习的基本限制,以及循环神经网络在满足 Lipschitz 属性且以最佳度量 - 熵方式快速遗忘过去输入方面的应用,通过计算相关指标,证明了 RNN 可以实现指数衰减和多项式衰减 Lipschitz 的消退记忆系统。
Jul, 2024
给定神经网络的初始条件,通过在参数空间中重建输入从相邻激活层到单层辅助网络的级联来预测深层前馈神经网络的可训练区域,从而显著降低整体训练时间,并确定信息流动与深度神经网络的可训练性之间的具体联系。
Jun, 2024
提出了一种更快的方法,称为互信息神经熵估计(MI-NEE),其将互信息估计变为估计熵的过程,通过使用自定义参考分布和选择均匀分布作为参考分布来实现更快的收敛。
May, 2019