深度学习模型的描述长度

NIPSFeb, 2018

The Description Length of Deep Learning Models

Léonard Blier, Yann Ollivier

TL;DR通过实验证明，即使考虑到参数编码，深度神经网络仍能够压缩训练数据，而这种压缩视角最初激励了神经网络中变分方法的使用。我们发现，这些变分方法提供了惊人的较差压缩界限，这可能解释了变分方法在深度学习中相对较差的实际性能。另一方面，简单的增量编码方法在深度网络上产生了出色的压缩效果，从而证明了 Solomonoff 的方法。

Abstract

solomonoff's general theory of inference and the Minimum Description Length principle formalize Occam's razor, and hold that a good model of data is a model that is good at losslessly compressing the data, including the cost of describing the model itself. →

solomonoff's general theory of inference minimum description length principle deep neural networks compress variational methods

发现论文，激发创造

深度神经网络的熵受限训练

该研究提出了一种神经网络压缩的通用框架，通过最小描述长度原则和熵来量化其复杂度并使用基于梯度的优化技术实现了优秀的压缩结果。

Dec, 2018

最小化随机代码学习：从压缩模型参数中获取二进制位

本文提出了一种通过使用全变分权重分布进行深度神经网络压缩的方法，能够实现更高的压缩率和更高的测试性能，并在 LeNet-5/MNIST 和 VGG-16/CIFAR-10 基准测试中创造出新的最优结果。

Sep, 2018

表示学习的最小描述长度和泛化保证

设计高效的统计监督学习算法的一大挑战是找到不仅在可用训练样本上表现良好，也在未知数据上表现良好的表示方法。本文建立了一个压缩性框架，通过标签或潜在变量（表示）的 “最小描述长度”（MDL）来推导表示学习算法的泛化误差的上界。通过与固定先验的训练集和测试集的表示（或标签）分布之间的 “多字母” 相对熵，而不是通常认为反映算法泛化能力的编码器输入和表示之间的互信息，建立了新的界限。本文的压缩性方法是信息论的，基于 Blum-Langford 的 PAC-MDL 界限，并引入了两个关键因素：块编码和有损压缩。最后，本文通过引入新的数据依赖性先验，部分利用了理论结果。数值模拟展示了选择良好的先验与 IB 中使用的经典先验相比的优势。

Feb, 2024

奥卡姆梯度下降

通过应用学习理论，我们提出了 Occam 梯度下降算法，同时降低神经网络的拓扑结构大小和权重，从而在准确度、计算和模型压缩方面优于传统梯度下降算法。

May, 2024

深度神经网络是否具有内在的奥卡姆剃刀原理？

研究表明，深度神经网络成功的关键在于结构化数据，以及拥有一种像奥卡姆剃刀一般的归纳偏差，使其能够对抗复杂度呈指数级增长的函数，通过引入贝叶斯图像和随机梯度下降等方法，我们试图将网络架构、训练算法和数据结构三个组件相互分离。

Apr, 2023

深度神经网络压缩对长尾效应的影响研究

本文研究在神经网络的网络压缩过程中如何保持原始网络的语义等价性，并通过对长尾现象的探讨，正向证明了全模型和压缩模型之间的差异与训练数据的记忆程度相关。

Jun, 2023

基于最小描述长度原理的网络重建

从动态或行为数据中重建网络的一个基本问题在于以能够防止过拟合的方式确定最适合的模型复杂度，并生成具有统计合理边数的推断网络。与常见做法 L1 正则化结合交叉验证相比，本文提出了一种基于层级贝叶斯推断和权重量化的非参数正则化方法，该方法能够提高网络重建的准确性，并且不需要事先知道边的数量。特别是在关于大规模物种数量的微生物群落间相互作用网络重建方面，我们展示了该方法的应用，并演示了利用推断模型预测系统干预结果的能力。

May, 2024

改进神经图像压缩推理

本文研究了利用深度潜变量模型进行有损图像压缩的问题，并提出了迭代推理、离散优化的随机退火以及 bits-back 编码等方法，取得了新的最优表现。

Jun, 2020

最小描述长度的再探讨

这篇论文是一篇对最小描述长度（MDL）原理的介绍和概述，讨论了在统计学、机器学习和模式识别等领域中广泛应用的归纳推理理论。MDL 可以被视为惩罚最大似然和贝叶斯方法的一种强大扩展，其中惩罚函数和先验分布被替换成更一般的幸运函数。

Aug, 2019

模型剪枝的信息论理论解释

本文探讨了神经网络压缩问题，利用率失真理论解释了压缩比和神经网络性能之间的张力，提出了一种压缩和失真之间的折衷方法，并通过该理论分析表明模型剪枝是好的压缩算法的一部分，最后，提出了一种基于信息理论的剪枝策略并在 CIFAR-10 和 ImageNet 数据集上显示出其优越性。

Feb, 2021