深度学习模型的描述长度
本文提出了一种通过使用全变分权重分布进行深度神经网络压缩的方法,能够实现更高的压缩率和更高的测试性能,并在 LeNet-5/MNIST 和 VGG-16/CIFAR-10 基准测试中创造出新的最优结果。
Sep, 2018
设计高效的统计监督学习算法的一大挑战是找到不仅在可用训练样本上表现良好,也在未知数据上表现良好的表示方法。本文建立了一个压缩性框架,通过标签或潜在变量(表示)的 “最小描述长度”(MDL)来推导表示学习算法的泛化误差的上界。通过与固定先验的训练集和测试集的表示(或标签)分布之间的 “多字母” 相对熵,而不是通常认为反映算法泛化能力的编码器输入和表示之间的互信息,建立了新的界限。本文的压缩性方法是信息论的,基于 Blum-Langford 的 PAC-MDL 界限,并引入了两个关键因素:块编码和有损压缩。最后,本文通过引入新的数据依赖性先验,部分利用了理论结果。数值模拟展示了选择良好的先验与 IB 中使用的经典先验相比的优势。
Feb, 2024
研究表明,深度神经网络成功的关键在于结构化数据,以及拥有一种像奥卡姆剃刀一般的归纳偏差,使其能够对抗复杂度呈指数级增长的函数,通过引入贝叶斯图像和随机梯度下降等方法,我们试图将网络架构、训练算法和数据结构三个组件相互分离。
Apr, 2023
本文研究在神经网络的网络压缩过程中如何保持原始网络的语义等价性,并通过对长尾现象的探讨,正向证明了全模型和压缩模型之间的差异与训练数据的记忆程度相关。
Jun, 2023
从动态或行为数据中重建网络的一个基本问题在于以能够防止过拟合的方式确定最适合的模型复杂度,并生成具有统计合理边数的推断网络。与常见做法 L1 正则化结合交叉验证相比,本文提出了一种基于层级贝叶斯推断和权重量化的非参数正则化方法,该方法能够提高网络重建的准确性,并且不需要事先知道边的数量。特别是在关于大规模物种数量的微生物群落间相互作用网络重建方面,我们展示了该方法的应用,并演示了利用推断模型预测系统干预结果的能力。
May, 2024
这篇论文是一篇对最小描述长度(MDL)原理的介绍和概述,讨论了在统计学、机器学习和模式识别等领域中广泛应用的归纳推理理论。MDL 可以被视为惩罚最大似然和贝叶斯方法的一种强大扩展,其中惩罚函数和先验分布被替换成更一般的幸运函数。
Aug, 2019
本文探讨了神经网络压缩问题,利用率失真理论解释了压缩比和神经网络性能之间的张力,提出了一种压缩和失真之间的折衷方法,并通过该理论分析表明模型剪枝是好的压缩算法的一部分,最后,提出了一种基于信息理论的剪枝策略并在 CIFAR-10 和 ImageNet 数据集上显示出其优越性。
Feb, 2021