建筑瓶颈原则

EMNLPNov, 2022

The Architectural Bottleneck Principle

Tiago Pimentel, Josef Valvoda, Niklas Stoehr, Ryan Cotterell

TL;DR本文研究了神经网络组件从输入的表示中可以提取多少信息，提出了建立合适探针的原则，并用该原则评估了 transformers 的句法信息提取能力。实验发现，BERT、ALBERT 和 RoBERTa 等模型的表示中可以提取句法信息，但这些信息是否被真正使用还需要进一步的探究。

Abstract

In this paper, we seek to measure how much information a component in a neural network could extract from the representations fed into it. Our work stands in contrast to prior probing work, most of which investig

neural network probing architectural bottleneck principle transformers syntactic information

发现论文，激发创造

深度学习与信息瓶颈原理

使用信息瓶颈（IB）原理分析深度神经网络（DNN）的信息流，并得到 DNN 的理论极限及有限样本泛化的上限，同时探讨了网络的优化模型，层数和特征 / 连接与信息瓶颈权衡中的分叉点的关系，其中对应了网络层级结构上的结构相变。

Mar, 2015

信息论探针用于语言结构探索

本文介绍了一种基于信息理论的方法来评估神经网络对自然语言处理的理解程度，即探针，发现在评估中应选择表现最好的模型，即使它是更复杂的模型，以获得更紧密的估计和更多的语言信息。作者在多种语言数据集上进行实验验证了这种方法的有效性。

Apr, 2020

利用变分信息瓶颈压缩神经网络

该论文研究了如何通过修剪神经元、信息瓶颈和稀疏正则化等方式来压缩神经网络模型，提高模型的精度和运行效率。在多个数据集和网络架构中展示了最先进的压缩率。

Feb, 2018

神经语言模型中的成分结构探测

本文研究神经语言模型对句法结构的学习能力，发现预训练的 Transfomer LM 即使在语义有错的情况下仍能准确地代表不同类别的成分，并且语法信息确实被 LM 学习并与语义信息分离。

Apr, 2022

可视化和测量 BERT 的几何形状

本文描述了一种特别有效的模型 BERT，它能够通过从语义和句法子空间中提取一般有用的语言特征来代表语言信息，同时还探讨了注意力矩阵和单词嵌入中的句法表示，并提出了一种数学证明来解释这些表示的几何形态。

Jun, 2019

哪种 transformer 架构适合我的数据？自注意力中的词汇瓶颈

论文研究了 Transformer 的结构配置问题，并且提出了嵌入秩瓶颈的概念，通过实验验证了这种瓶颈的存在并显示了它在 Transformer 结构的深度与宽度之间的相互作用中的影响，同时提出了一种排查 ALBERT 和 T5 在 NLP 模型中冗余的方法。

May, 2021

限制信息流：用于归因的信息瓶颈

本研究使用信息瓶颈概念进行属性分析，通过添加噪声来限制信息流并量化图像区域提供的信息量，并在 VGG-16 和 ResNet-50 上对比了十种基线方法，发现我们的方法在五个设置中均优于所有基线。

Jan, 2020

探针与解析器的故事

本研究对比了一个新型结构探针和传统解析器，发现两种方法在不同语言上效果并存，提出了关于使用哪种技术的问题。

May, 2020

深度学习中的信息瓶颈解析：统一信息理论目标

本研究旨在比较和统一先前提出的信息瓶颈原则中的多个竞争目标，并开发更友好的替代目标，以便将信息瓶颈应用于现代深度神经网络结构，无需依赖于像密度估计这样的繁琐工具。研究结果可以在现代 DNN 结构（ResNets）上展示。

Mar, 2020

低资源口语理解的瓶颈低秩变换器

本文介绍了如何使用变形器结构并应用群稀疏技术实现拥有较高精度、更小规模 SLU 模型的生成，从而避免使用预先训练的参数较多的大型模型。

Jun, 2022