层层为重要且不同：每一层都重要 BERT

Nov, 2023

层层为重要且不同：每一层都重要 BERT

Not all layers are equally as important: Every Layer Counts BERT

Lucas Georges Gabriel Charpentier, David Samuel

TL;DR该研究介绍了针对数据高效预训练语言模型的一种新型 Transformer 体系结构修改方法。该方法通过参与 BabyLM 挑战赛，赢得了 extsc {strict} 和 extsc {strict-small} 两个赛道。我们的方法允许每个 Transformer 层选择处理前一层的哪些输出。经验证实验结果显示，该简单的修改具有潜力，且不同层的重要性不尽相同。

Abstract

This paper introduces a novel modification of the transformer architecture, tailored for the data-efficient pretraining of language models

transformer architecture data-efficient pretraining language models babylm challenge transformer layer

发现论文，激发创造

TrimBERT: 为折衷而量身定制的 BERT 模型

本文介绍了一种方法：通过减少 BERT-Base 模型中的中间层数量来达到压缩模型、加快训练速度且不影响下游任务的准确性的效果，同时使用计算上更简单的技术代替自注意力层中的 softmax 操作并删除一半的层归一化层以进一步减少训练时间。

Feb, 2022

LV-BERT：利用层面多样性的 BERT 模型

该研究改进预训练模型，采用多种不同类型和顺序的神经网络层，采用进化算法寻找最优结构，在多个任务中优于现有的 BERT 模型。

Jun, 2021

关注重点：BERT 是否需要中间层？

本文探讨了 BERT 模型中中间层对于下游任务的影响，证明减少中间层数量和修改模型结构对下游任务的微调准确性影响很小，同时可以减少模型参数数量和训练时间。通过核心对齐和探究性线性分类器验证了去除中间层对于微调精度的影响微小。

Dec, 2020

基于 BERT 的句子分类的神经架构搜索

使用大型文本语料库对语言模型进行预训练是自然语言处理中常见的做法。然后，对这些模型进行微调以在各种任务中取得最佳结果。本文对仅添加单个输出层作为网络顶部的分类头的常见做法提出了质疑。我们进行了一次自动机器学习搜索，以找到在计算成本较小的情况下能够超过当前单层分类器的体系结构。我们在 GLUE 数据集的各种自然语言处理基准上验证了我们的分类体系结构。

Mar, 2024

BERT 层的特性研究：单语和多语 NLP 流水线的深度探析

本论文通过研究荷兰 BERT 模型和多语言 BERT 模型的荷兰语 NLP 任务，以及对词性标注的深入分析，展示了 BERT 网络中不同层次的特化以及信息分散的情况，并提出了利用不同层次的信息来提高性能的方法。

Apr, 2020

如何操作？在 Transformer 微调期间冻结图层

本文研究使用预训练的 transformer-based 语言模型 BERT 和 RoBERTa 在文本关系、语义相似性、情感分析和语言可接受性等标准任务中微调不同层数的效果，结果表明微调最后一层的四分之一即可达到 90% 的原始质量，微调所有层并不总是有更好的效果。

Nov, 2019

EarlyBERT: 早鸟抽奖票优化 BERT 训练

本篇论文提出了 EarlyBERT，这是一种通用的计算高效的训练算法，可用于大规模语言模型的预训练和微调，通过对自注意和全连接子层进行精简，第一次在 BERT 训练的早期阶段中发现了结构优质的 winning tickets，实验结果表明，与标准 BERT 相比，EarlyBERT 能够在 35-45％的训练时间内实现相当的性能。

Dec, 2020

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

如何为文本分类微调 BERT?

研究 BERT 语言模型在文本分类任务上的微调方法，提供一般的解决方案，并在 8 个广泛研究的文本分类数据集上取得了最新的最好结果。

May, 2019

BERT 的输出层是否识别所有隐藏层？一些有趣现象和提升 BERT 性能的简单方法

本研究发现，BERT 的输出层可以通过直接将每一层作为输入来重建输入句子，即使输出层仅仅见过最终的隐藏层。基于此观察，我们提出了一种简单的方法来提高 BERT 模型在下游任务中的性能，即通过复制一些层使其更深而无需进行额外的训练。

Jan, 2020