关注重点：BERT 是否需要中间层？

Dec, 2020

关注重点：BERT 是否需要中间层？

Undivided Attention: Are Intermediate Layers Necessary for BERT?

Sharath Nittur Sridhar, Anthony Sarah

TL;DR本文探讨了 BERT 模型中中间层对于下游任务的影响，证明减少中间层数量和修改模型结构对下游任务的微调准确性影响很小，同时可以减少模型参数数量和训练时间。通过核心对齐和探究性线性分类器验证了去除中间层对于微调精度的影响微小。

Abstract

In recent times, bert-based models have been extremely successful in solving a variety of natural language processing (NLP) tasks such as reading comprehension, natural language inference, sentiment analysis, etc. All BERT-based architectures have a →

bert-based models self-attention block intermediate layers downstream tasks fine-tuning accuracy

发现论文，激发创造

TrimBERT: 为折衷而量身定制的 BERT 模型

本文介绍了一种方法：通过减少 BERT-Base 模型中的中间层数量来达到压缩模型、加快训练速度且不影响下游任务的准确性的效果，同时使用计算上更简单的技术代替自注意力层中的 softmax 操作并删除一半的层归一化层以进一步减少训练时间。

Feb, 2022

层层为重要且不同：每一层都重要 BERT

该研究介绍了针对数据高效预训练语言模型的一种新型 Transformer 体系结构修改方法。该方法通过参与 BabyLM 挑战赛，赢得了 extsc {strict} 和 extsc {strict-small} 两个赛道。我们的方法允许每个 Transformer 层选择处理前一层的哪些输出。经验证实验结果显示，该简单的修改具有潜力，且不同层的重要性不尽相同。

Nov, 2023

BERT 层的特性研究：单语和多语 NLP 流水线的深度探析

本论文通过研究荷兰 BERT 模型和多语言 BERT 模型的荷兰语 NLP 任务，以及对词性标注的深入分析，展示了 BERT 网络中不同层次的特化以及信息分散的情况，并提出了利用不同层次的信息来提高性能的方法。

Apr, 2020

BERT 的输出层是否识别所有隐藏层？一些有趣现象和提升 BERT 性能的简单方法

本研究发现，BERT 的输出层可以通过直接将每一层作为输入来重建输入句子，即使输出层仅仅见过最终的隐藏层。基于此观察，我们提出了一种简单的方法来提高 BERT 模型在下游任务中的性能，即通过复制一些层使其更深而无需进行额外的训练。

Jan, 2020

拓扑 BERT：将注意力转化为拓扑以用于自然语言处理

本研究介绍了一种使用拓扑数据分析的文本分类器。我们使用 BERT 的关注映射转换为关注图作为该分类器的唯一输入。该模型可以解决区分邮件的垃圾邮件和普通邮件等任务，并在某些任务上表现出优于 BERT 基线的性能。此外，我们提出了一种新的方法来减少涉及拓扑分类器的 BERT 注意力头的数量。我们的工作还显示，拓扑模型在对抗性攻击方面表现出更高的鲁棒性，这一特性在减少注意力头的过程中保持不变。据我们所知，这项工作是在 NLP 领域中首次使用基于拓扑的模型来应对对抗性攻击。

Jun, 2022

预训练 Transformer 模型删除层的影响

通过剪枝方法，本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献，并观察剪枝对下游 GLUE 任务的影响，结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40％而保持最多 98％的原始性能，并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。

Apr, 2020

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019

从 BERT 中提炼出特定任务的知识并转化为简单的神经网络

本文主要研究神经网络中的自然语言处理，通过将 BERT 知识蒸馏成单层 BiLSTM 及其同侧对应的句对任务，证明了浅层神经网络仍然可以在不使用架构变化、外部训练数据或其他输入特征的情况下，与 ELMo 相比获得可媲美的结果。

Mar, 2019

基于 BERT 的句子分类的神经架构搜索

使用大型文本语料库对语言模型进行预训练是自然语言处理中常见的做法。然后，对这些模型进行微调以在各种任务中取得最佳结果。本文对仅添加单个输出层作为网络顶部的分类头的常见做法提出了质疑。我们进行了一次自动机器学习搜索，以找到在计算成本较小的情况下能够超过当前单层分类器的体系结构。我们在 GLUE 数据集的各种自然语言处理基准上验证了我们的分类体系结构。

Mar, 2024

BERT 是如何回答问题的：对 Transformer 表示进行逐层分析

我们对 BERT 的隐藏状态进行逐层分析，揭示了这些状态所包含的有价值的信息，包括 QA 任务 fine-tuned 的模型如何转换令牌向量以找到正确的答案。通过应用一组用于揭示每个表示层中存储信息的一般和 QA 特定探测任务，我们的分析显示 BERT 的转换经历了与传统 pipeline 任务相关的阶段，且细微调整对模型的语意能力影响不大，即使在早期层也可以识别出预测错误。

Sep, 2019