预训练 Transformer 的非参数变分正则化

Dec, 2023

预训练 Transformer 的非参数变分正则化

Nonparametric Variational Regularisation of Pretrained Transformers

Fabio Fehr, James Henderson

TL;DR当前大规模预训练和微调 Transformer 大型语言模型的范式在自然语言处理方面取得了显著的进展，然而这种大型模型容易在训练数据上过拟合，在领域变化时性能表现差，而将非参数变分信息瓶颈（NVIB）框架扩展到 Transformers 的所有类型的注意力函数可以解决过拟合问题，改变初始化可以引入一种新的基于信息论的后训练正则化的注意机制，提高领域外泛化能力，这证实了预训练的 Transformer 模型隐式地是 NV 贝叶斯模型。

Abstract

The current paradigm of large-scale pre-training and fine-tuning transformer large language models has lead to significant improvements ac

large-scale pre-training fine-tuning transformer attention mechanism out-of-domain generalisation

发现论文，激发创造

非参数变分信息瓶颈下的变压器变分自编码器

本文提出了一种基于变分信息瓶颈的变分自编码器（VAE）改进方法，用于 Transformers 的嵌入空间优化，通过 Bayesian nonparametrics 方法获得非参数的变分信息瓶颈（NVIB）以规范注意机制支持的向量数量和向量中的信息量，为 Encoder-Decoder 模型引入 NVIB，提出了一种非参数化可变自编码器（NVAE），并在自然文本上证明了其有效性。

Jul, 2022

学习使用非参数化变分信息瓶颈进行抽象

本论文介绍了一种能够学习在同一模型的不同层次进行不同抽象级别压缩的语言表示模型，并通过在编码器的堆叠 Transformer 自注意力层中应用非参数变分信息瓶颈 (NVIB) 来促进表示的信息理论压缩。论文发现模型内的不同层次对应于不断增加的抽象级别，并且它们的表示更具有语言学信息。最后，实验证明 NVIB 压缩能够产生更具鲁棒性的模型，面对对抗性扰动更加稳健。

Oct, 2023

有效低资源微调的变分信息瓶颈

本文提出使用变分信息瓶颈 (VIB) 来压制过拟合和提高低资源情景中的传输学习，并证明我们的方法成功地降低了过拟合，提高了泛化能力。我们的 VIB 模型发现的句子表示更加鲁棒且能够在自然语言推断数据集中更好地泛化到领域外数据集，实验结果表明我们的方法显著提高了传输学习，并在 13 个领域外自然语言推断基准测试中提高了泛化能力。

Jun, 2021

深度变分信息瓶颈

本文提出 “Deep Variational Information Bottleneck” 方法，通过可变分近似来将信息瓶颈模型参数化，使用神经网络和重新参数化技巧进行高效训练。结果显示，使用 VIB 优化训练的模型在泛化性能和对抗攻击鲁棒性方面优于其他正则化方法。

Dec, 2016

VTrans：基于变分信息瓶颈剪枝的 Transformer 压缩加速

我们提出了 VTrans，一种迭代剪枝框架，通过变分信息瓶颈（VIB）原则引导，压缩所有结构组件，包括嵌入层、注意力头和层，以满足模型大小或计算约束，相比之前的方法实现了高达 70% 的压缩，并提出了更快的变体。在 BERT、ROBERTa 和 GPT-2 模型上进行的广泛实验证实了我们方法的效果，并使用基于注意力的探针定性评估模型冗余性和方法的效率。

Jun, 2024

灵活的变分信息瓶颈：通过单次训练实现多样压缩

本研究提出了一种创新的分类任务框架，称为 Flexible Variational Information Bottleneck (FVIB)，通过单一、高效的训练可以获取在所有 $eta$ 值上的最优模型，并且在校准性能方面优于其他信息瓶颈和校准方法。

Feb, 2024

深度变分多元信息瓶颈 —— 变分损失的框架

通过信息论，我们提出了一个可以重新演绎和推广现有变分方法，并设计新方法的统一原则。我们的框架基于多变量信息瓶颈的解释，其中两个贝叶斯网络相互权衡。我们将第一个网络解释为编码器图，指定了在压缩数据时要保留哪些信息；我们将第二个网络解释为解码器图，为数据指定了生成模型。利用这个框架，我们重新演绎了现有的降维方法，如深度变分信息瓶颈 (DVIB)，Beta 变分自动编码器 (beta-VAE) 和深度变分规范相关分析 (DVCCA)。该框架在 DVCCA 算法族中自然引入了一个压缩和重建之间的权衡参数，从而产生了新的 Beta-DVCCA 算法族。此外，我们推导出了一种新的变分降维方法，深度变分对称信息瓶颈 (DVSIB)，它可以同时压缩两个变量以保留它们压缩表示之间的信息。我们实现了所有这些算法，并在经过修改的噪声 MNIST 数据集上评估它们产生共享低维潜空间的能力。我们展示了与数据结构更匹配的算法 (Beta-DVCCA 和 DVSIB) 如何通过分类准确性和潜变量的维度来测量产生更好的潜空间。我们相信这个框架可以用来统一其他多视图表示学习算法，此外，它还为推导问题特定的损失函数提供了一个直观的框架。

Oct, 2023

具有变分信息瓶颈的学习到学习方法，用于域通用化

本文介绍了一种面向领域概括的概率元学习模型，并通过提出的元变分信息瓶颈原则，即 MetaVIB，学习了领域不变表示，从而更好地处理了预测不确定性和领域转移问题。

Jul, 2020

变分信息瓶颈中的不确定性

通过简单的案例研究，我们展示了变分信息瓶颈（VIB）不仅可以提高神经网络的分类校准能力，还可以改善其检测未知数据的能力，并提供了两个量化和处理不确定性的自然度量。

Jul, 2018

不变信息瓶颈用于域泛化

本文提出了一种新的不变信息瓶颈（IIB）的域泛化方法，它采用互信息的变分形式来为非线性分类器开发可处理的损失函数，以实现最小化不变风险和减轻伪不变特征和几何偏移对模型的影响。在合成数据集上，IIB 可以显著优于 IRM（不变风险最小化），并且在实际数据集上平均优于 13 个基线方法 0.9％。

Jun, 2021