最小描述长度的再探讨
设计高效的统计监督学习算法的一大挑战是找到不仅在可用训练样本上表现良好,也在未知数据上表现良好的表示方法。本文建立了一个压缩性框架,通过标签或潜在变量(表示)的 “最小描述长度”(MDL)来推导表示学习算法的泛化误差的上界。通过与固定先验的训练集和测试集的表示(或标签)分布之间的 “多字母” 相对熵,而不是通常认为反映算法泛化能力的编码器输入和表示之间的互信息,建立了新的界限。本文的压缩性方法是信息论的,基于 Blum-Langford 的 PAC-MDL 界限,并引入了两个关键因素:块编码和有损压缩。最后,本文通过引入新的数据依赖性先验,部分利用了理论结果。数值模拟展示了选择良好的先验与 IB 中使用的经典先验相比的优势。
Feb, 2024
本文提出了一种信息论探测方法 —— 最小描述长度(MDL)探测来评估预训练表示编码语言属性的效果,该方法不仅能考虑到探针模型的大小,还能评估实现高质量预测所需的数据量。
Mar, 2020
从动态或行为数据中重建网络的一个基本问题在于以能够防止过拟合的方式确定最适合的模型复杂度,并生成具有统计合理边数的推断网络。与常见做法 L1 正则化结合交叉验证相比,本文提出了一种基于层级贝叶斯推断和权重量化的非参数正则化方法,该方法能够提高网络重建的准确性,并且不需要事先知道边的数量。特别是在关于大规模物种数量的微生物群落间相互作用网络重建方面,我们展示了该方法的应用,并演示了利用推断模型预测系统干预结果的能力。
May, 2024
本文提出了一个框架,利用回归分析和最小描述长度(MDL)来寻找一组具有共同特征的最大区域,以便为预测家庭收入确立单一政策,并使用该框架的结果作为指导方针,支持政策制定者制定与贫困和其他问题有关的政策。
Jul, 2019
提出了一种新的概率图模型结构学习方法,通过在随机变量实例化级别上操作来学习,推广和解释在这些难以捉摸的领域中,从而解决机器学习方法在精度不尽如人意的情况下的问题,并且通过 Bayesian Knowledge Bases(BKBs)来利用 Information Thermodynamics 和 MDL 原理解决了结构化选择问题并提高了学习效果,最终运用在乳腺癌基因突变数据学习基因调节网络。
Mar, 2023
本研究提出了一种新的方法来自动获取文本语料库中的案例框架模式,并使用 MDL 原则来调整模式,以帮助尽可能高效地预测文本中的结构。通过与其他方法进行对比和测试,我们证明了该方法是有效的。
Jul, 1995
研究使用最小描述长度(MDL)原则基于样本复杂性学习贝叶斯网络,并提出了使用样本复杂性结果加速学习过程的方法,同时表明了以熵距离为误差阈值的 epsilon-close 近似所需样本数量是 O ((1/epsilon)^(4/3) log (1/epsilon) log (1/delta) loglog (1/delta))。
Feb, 2013
通过实验证明,即使考虑到参数编码,深度神经网络仍能够压缩训练数据,而这种压缩视角最初激励了神经网络中变分方法的使用。我们发现,这些变分方法提供了惊人的较差压缩界限,这可能解释了变分方法在深度学习中相对较差的实际性能。另一方面,简单的增量编码方法在深度网络上产生了出色的压缩效果,从而证明了 Solomonoff 的方法。
Feb, 2018
神经网络在形式语言学习任务中表现出了较好的逼近能力,然而,理论上证明了某些结构可以达到完美的广义,但实际上常用的目标函数(如 L1、L2 正则化、early-stopping 和 dropout)并不能得到理论上正确的解,而采用最小描述长度目标函数则能达到最优解。
Feb, 2024