BERT 的输出层是否识别所有隐藏层？一些有趣现象和提升 BERT 性能的简单方法

Jan, 2020

BERT 的输出层是否识别所有隐藏层？一些有趣现象和提升 BERT 性能的简单方法

BERT's output layer recognizes all hidden layers? Some Intriguing Phenomena and a simple way to boost BERT

Wei-Tsung Kao, Tsung-Han Wu, Po-Han Chi, Chun-Cheng Hsieh, Hung-Yi Lee

TL;DR本研究发现，BERT 的输出层可以通过直接将每一层作为输入来重建输入句子，即使输出层仅仅见过最终的隐藏层。基于此观察，我们提出了一种简单的方法来提高 BERT 模型在下游任务中的性能，即通过复制一些层使其更深而无需进行额外的训练。

Abstract

Although bidirectional encoder representations from transformers (bert) have achieved tremendous success in many natural language processing (NLP) tasks, it remains a black box. A variety of previous works have t

bidirectional encoder representations from transformers bert nlp tasks input sentence fine-tuning

发现论文，激发创造

BERT 层的特性研究：单语和多语 NLP 流水线的深度探析

本论文通过研究荷兰 BERT 模型和多语言 BERT 模型的荷兰语 NLP 任务，以及对词性标注的深入分析，展示了 BERT 网络中不同层次的特化以及信息分散的情况，并提出了利用不同层次的信息来提高性能的方法。

Apr, 2020

BERT 是如何回答问题的：对 Transformer 表示进行逐层分析

我们对 BERT 的隐藏状态进行逐层分析，揭示了这些状态所包含的有价值的信息，包括 QA 任务 fine-tuned 的模型如何转换令牌向量以找到正确的答案。通过应用一组用于揭示每个表示层中存储信息的一般和 QA 特定探测任务，我们的分析显示 BERT 的转换经历了与传统 pipeline 任务相关的阶段，且细微调整对模型的语意能力影响不大，即使在早期层也可以识别出预测错误。

Sep, 2019

关注重点：BERT 是否需要中间层？

本文探讨了 BERT 模型中中间层对于下游任务的影响，证明减少中间层数量和修改模型结构对下游任务的微调准确性影响很小，同时可以减少模型参数数量和训练时间。通过核心对齐和探究性线性分类器验证了去除中间层对于微调精度的影响微小。

Dec, 2020

层层为重要且不同：每一层都重要 BERT

该研究介绍了针对数据高效预训练语言模型的一种新型 Transformer 体系结构修改方法。该方法通过参与 BabyLM 挑战赛，赢得了 extsc {strict} 和 extsc {strict-small} 两个赛道。我们的方法允许每个 Transformer 层选择处理前一层的哪些输出。经验证实验结果显示，该简单的修改具有潜力，且不同层的重要性不尽相同。

Nov, 2023

层级 Transformer 用于长文档分类

该研究介绍了如何通过引入基于循环层或其他 Transformer 的单输出层对长文本进行 BERT 模型的微调，成功将其应用于客户电话满意度预测和话题分类任务中，并在两个任务中取得了显著的改进。

Oct, 2019

基于 BERT 的句子分类的神经架构搜索

使用大型文本语料库对语言模型进行预训练是自然语言处理中常见的做法。然后，对这些模型进行微调以在各种任务中取得最佳结果。本文对仅添加单个输出层作为网络顶部的分类头的常见做法提出了质疑。我们进行了一次自动机器学习搜索，以找到在计算成本较小的情况下能够超过当前单层分类器的体系结构。我们在 GLUE 数据集的各种自然语言处理基准上验证了我们的分类体系结构。

Mar, 2024

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

从 BERT 中提炼出特定任务的知识并转化为简单的神经网络

本文主要研究神经网络中的自然语言处理，通过将 BERT 知识蒸馏成单层 BiLSTM 及其同侧对应的句对任务，证明了浅层神经网络仍然可以在不使用架构变化、外部训练数据或其他输入特征的情况下，与 ELMo 相比获得可媲美的结果。

Mar, 2019

利用深度表示进行神经机器翻译

本文提出了一种新的神经机器翻译方法，采用层聚合和多层注意力机制，通过引入辅助正则化项促进不同层捕获多样化信息，实验结果表明该方法在 WMT14 英德和 WMT17 中英数据上具有普适性与有效性。

Oct, 2018

抓住早期的错误：利用编码器模型的早期层进行更有效的代码分类

本文介绍了 EarlyBIRD 方法，用于在预训练的 transformer 模型的早期层中构建代码的组合表示，旨在提高软件工程任务的性能，并可用于漏洞检测和类型推断。实验证明早期层的组合可在使用同样资源的情况下获得更好的结果，并能在微调和推断期间降低资源使用。

May, 2023