通过信息瓶颈专门化单词嵌入（用于解析）

EMNLPOct, 2019

通过信息瓶颈专门化单词嵌入（用于解析）

Specializing Word Embeddings (for Parsing) by Information Bottleneck

Xiang Lisa Li, Jason Eisner

TL;DR提出了一种 VIB 方法，将预训练的词嵌入非线性压缩，只保留帮助判别式解析器的信息，在离散或连续向量上进行压缩，可以实现更准确的解析。

Abstract

pre-trained word embeddings like ELMo and BERT contain rich syntactic and semantic information, resulting in state-of-the-art performance on various tasks. We propose a very fast variational information bottleneck (VIB) method to nonlinearly compress these embeddings, keeping only the

pre-trained word embeddings vib method syntactic and semantic information compressing embeddings accurate parser

发现论文，激发创造

学习使用非参数化变分信息瓶颈进行抽象

本论文介绍了一种能够学习在同一模型的不同层次进行不同抽象级别压缩的语言表示模型，并通过在编码器的堆叠 Transformer 自注意力层中应用非参数变分信息瓶颈 (NVIB) 来促进表示的信息理论压缩。论文发现模型内的不同层次对应于不断增加的抽象级别，并且它们的表示更具有语言学信息。最后，实验证明 NVIB 压缩能够产生更具鲁棒性的模型，面对对抗性扰动更加稳健。

Oct, 2023

有效低资源微调的变分信息瓶颈

本文提出使用变分信息瓶颈 (VIB) 来压制过拟合和提高低资源情景中的传输学习，并证明我们的方法成功地降低了过拟合，提高了泛化能力。我们的 VIB 模型发现的句子表示更加鲁棒且能够在自然语言推断数据集中更好地泛化到领域外数据集，实验结果表明我们的方法显著提高了传输学习，并在 13 个领域外自然语言推断基准测试中提高了泛化能力。

Jun, 2021

VTrans：基于变分信息瓶颈剪枝的 Transformer 压缩加速

我们提出了 VTrans，一种迭代剪枝框架，通过变分信息瓶颈（VIB）原则引导，压缩所有结构组件，包括嵌入层、注意力头和层，以满足模型大小或计算约束，相比之前的方法实现了高达 70% 的压缩，并提出了更快的变体。在 BERT、ROBERTa 和 GPT-2 模型上进行的广泛实验证实了我们方法的效果，并使用基于注意力的探针定性评估模型冗余性和方法的效率。

Jun, 2024

深度变分信息瓶颈

本文提出 “Deep Variational Information Bottleneck” 方法，通过可变分近似来将信息瓶颈模型参数化，使用神经网络和重新参数化技巧进行高效训练。结果显示，使用 VIB 优化训练的模型在泛化性能和对抗攻击鲁棒性方面优于其他正则化方法。

Dec, 2016

基于信息瓶颈原理的人 - 代理通信

本文研究了如何平衡效用、信息的有效性和复杂性，从而塑造新兴的通信，并将其与人类通信进行比较。我们使用 VQ-VIB 方法训练神经代理来压缩输入以获得离散信号，从而比以往的神经体系结构在其性能方面更具优越性，并发现惩罚交际复杂性可以维持高效用的同时维持类似人类的词汇量。此外，我们还发现，VQ-VIB 优于其他离散通信方法。

Jun, 2022

在基于 Transformer 的句子嵌入中解析连续与离散的语言信号

我们研究了如何将基于 transformer 的句子嵌入压缩成一种表示，以分离不同的语言信号，特别是与主谓一致和谓词交替相关的信息。通过在变分自编码器类似系统的潜在层中压缩共享目标现象的输入序列，我们发现目标语言信息变得更加明确。具有离散和连续组成部分的潜在层比只有离散或只有连续组成部分的潜在层更好地捕捉目标现象。这些实验是将分布式文本嵌入中的语言信号与更符号化的表示相分离并将它们联系起来的一步。

Dec, 2023

来自混合词汇训练的极小 BERT 模型

本文通过使用混合词汇训练来对齐师生嵌入，提出了一种压缩 BERT-LARGE 的知识蒸馏方法，使其成为一个具有更小词汇表和隐藏维数的无任务模型，这个模型的经验结果表明它比其他压缩 BERT 模型在语言理解基准和实际对话任务中具有更好的性价比。

Sep, 2019

使用深度变分信息瓶颈方法解释黑盒

本研究提出了一种系统无关的解释模式，即采用信息瓶颈原理作为准则来寻找在简洁性和全面性方面都具备的关键特征，并在三个数据集上评估了其可解释性和保真度。

Feb, 2019

利用变分信息瓶颈压缩神经网络

该论文研究了如何通过修剪神经元、信息瓶颈和稀疏正则化等方式来压缩神经网络模型，提高模型的精度和运行效率。在多个数据集和网络架构中展示了最先进的压缩率。

Feb, 2018

压缩词嵌入

该论文研究了使用词向量空间中的哈希技术压缩向量表达的内部结构对嵌入式表示存储优化的影响，同时探讨了二元分解对于嵌入式表示的可解释性的提高。

Nov, 2015