具有最小描述长度的信息论探测

Mar, 2020

Information-Theoretic Probing with Minimum Description Length

Elena Voita, Ivan Titov

TL;DR本文提出了一种信息论探测方法 —— 最小描述长度（MDL）探测来评估预训练表示编码语言属性的效果，该方法不仅能考虑到探针模型的大小，还能评估实现高质量预测所需的数据量。

Abstract

To measure how well pretrained representations encode some linguistic property, it is common to use accuracy of a probe, i.e. a classifier trained to predict the property from the representations. Despite widespread adoption of probes, differences in their accuracy fail to adequately r

pretrained representations linguistic property information-theoretic probing minimum description length probe quality

发现论文，激发创造

表示学习的最小描述长度和泛化保证

设计高效的统计监督学习算法的一大挑战是找到不仅在可用训练样本上表现良好，也在未知数据上表现良好的表示方法。本文建立了一个压缩性框架，通过标签或潜在变量（表示）的 “最小描述长度”（MDL）来推导表示学习算法的泛化误差的上界。通过与固定先验的训练集和测试集的表示（或标签）分布之间的 “多字母” 相对熵，而不是通常认为反映算法泛化能力的编码器输入和表示之间的互信息，建立了新的界限。本文的压缩性方法是信息论的，基于 Blum-Langford 的 PAC-MDL 界限，并引入了两个关键因素：块编码和有损压缩。最后，本文通过引入新的数据依赖性先验，部分利用了理论结果。数值模拟展示了选择良好的先验与 IB 中使用的经典先验相比的优势。

Feb, 2024

最小描述长度的再探讨

这篇论文是一篇对最小描述长度（MDL）原理的介绍和概述，讨论了在统计学、机器学习和模式识别等领域中广泛应用的归纳推理理论。MDL 可以被视为惩罚最大似然和贝叶斯方法的一种强大扩展，其中惩罚函数和先验分布被替换成更一般的幸运函数。

Aug, 2019

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020

通过互信息的变分下界理解探针行为

自监督表示、线性探测、信息论、互信息、线性可分表示

Dec, 2023

关于探测的数据需求

本研究探索寻找一种数量化方法，以估算合理的探测数据集大小，旨在构建一个系统性的诊断神经自然语言处理 (NLP) 模型探测数据集的框架。通过几个案例研究，我们验证了我们的估算具有足够的统计功效。

Feb, 2022

通过提示探测

本文提出了一种无模型的探测方法 —— 提示探测法，通过在 5 个探测任务上的实验表明，这种方法在提取信息方面与诊断探针相当或更好，并且可以自我学习得更少。此外，结合关注头修剪与提示探测法，分析模型在其架构中存储语言信息的位置，并通过删除对特定语言属性至关重要的头部来评估预训练的有用性。

Jul, 2022

利萨宁数据分析：通过描述长度检查数据集特征

本文提出了利用所谓的最小程序长度为依据，实现数据准确建模的方法，称为 Rissanen 数据分析（RDA）。该分析在自然语言处理等领域有着广泛的应用，能在不可计算的前提下，估计数据的最小描述长度，以研究数据特性。

Mar, 2021

探究作为归纳偏好的定量化

该研究旨在通过贝叶斯框架度量文本中的归纳偏差量，并通过对 Contextual embeddings 的探究，比较了 fastText 和 BERT 在不同任务上的性能表现差异。

Oct, 2021

一种隐变量模型用于内部探测

本文提出了一种新的潜变量公式用于构建内在探测器以确定语言属性所在位置，并提出一个可行的变分逼近方法，用于求解对数似然函数计算，结果表明这个模型能够获得更好的内部探测精度，并且在跨语言的形态句法方面表现良好。

Jan, 2022

基于最小描述长度原理的网络重建

从动态或行为数据中重建网络的一个基本问题在于以能够防止过拟合的方式确定最适合的模型复杂度，并生成具有统计合理边数的推断网络。与常见做法 L1 正则化结合交叉验证相比，本文提出了一种基于层级贝叶斯推断和权重量化的非参数正则化方法，该方法能够提高网络重建的准确性，并且不需要事先知道边的数量。特别是在关于大规模物种数量的微生物群落间相互作用网络重建方面，我们展示了该方法的应用，并演示了利用推断模型预测系统干预结果的能力。

May, 2024