LV-BERT：利用层面多样性的 BERT 模型

ACLJun, 2021

LV-BERT：利用层面多样性的 BERT 模型

LV-BERT: Exploiting Layer Variety for BERT

Weihao Yu, Zihang Jiang, Fei Chen, Qibin Hou, Jiashi Feng

TL;DR该研究改进预训练模型，采用多种不同类型和顺序的神经网络层，采用进化算法寻找最优结构，在多个任务中优于现有的 BERT 模型。

Abstract

Modern pre-trained language models are mostly built upon backbones stacking self-attention and feed-forward layers in an interleaved order. In this paper, beyond this stereotyped layer pattern, we aim to improve

pre-trained models self-attention feed-forward convolution evolutionary algorithm

发现论文，激发创造

层层为重要且不同：每一层都重要 BERT

该研究介绍了针对数据高效预训练语言模型的一种新型 Transformer 体系结构修改方法。该方法通过参与 BabyLM 挑战赛，赢得了 extsc {strict} 和 extsc {strict-small} 两个赛道。我们的方法允许每个 Transformer 层选择处理前一层的哪些输出。经验证实验结果显示，该简单的修改具有潜力，且不同层的重要性不尽相同。

Nov, 2023

基于 BERT 的句子分类的神经架构搜索

使用大型文本语料库对语言模型进行预训练是自然语言处理中常见的做法。然后，对这些模型进行微调以在各种任务中取得最佳结果。本文对仅添加单个输出层作为网络顶部的分类头的常见做法提出了质疑。我们进行了一次自动机器学习搜索，以找到在计算成本较小的情况下能够超过当前单层分类器的体系结构。我们在 GLUE 数据集的各种自然语言处理基准上验证了我们的分类体系结构。

Mar, 2024

TrimBERT: 为折衷而量身定制的 BERT 模型

本文介绍了一种方法：通过减少 BERT-Base 模型中的中间层数量来达到压缩模型、加快训练速度且不影响下游任务的准确性的效果，同时使用计算上更简单的技术代替自注意力层中的 softmax 操作并删除一半的层归一化层以进一步减少训练时间。

Feb, 2022

通过重新排序子层来改善 Transformer 模型

研究了不同顺序的多层 Transformer 结构对性能的影响，提出了一种新的顺序 —— 三明治变压器模型，并在多个语言模型基准测试中验证了其性能优势。

Nov, 2019

抓住早期的错误：利用编码器模型的早期层进行更有效的代码分类

本文介绍了 EarlyBIRD 方法，用于在预训练的 transformer 模型的早期层中构建代码的组合表示，旨在提高软件工程任务的性能，并可用于漏洞检测和类型推断。实验证明早期层的组合可在使用同样资源的情况下获得更好的结果，并能在微调和推断期间降低资源使用。

May, 2023

AutoBERT-Zero: 从头开始进化 BERT 骨干

本文介绍了一种基于自动搜索的方法，在一个灵活的搜索空间中发现了一种新型的预训练语言模型骨干架构，命名为 AutoBERT-Zero，其通过使用 Operation-Priority Neural Architecture Search 算法来优化自动搜索，证明了自动搜索网络结构可以在各种下游任务中显着优于手动设计的模型，表明其具有传递和扩展的能力。

Jul, 2021

EarlyBERT: 早鸟抽奖票优化 BERT 训练

本篇论文提出了 EarlyBERT，这是一种通用的计算高效的训练算法，可用于大规模语言模型的预训练和微调，通过对自注意和全连接子层进行精简，第一次在 BERT 训练的早期阶段中发现了结构优质的 winning tickets，实验结果表明，与标准 BERT 相比，EarlyBERT 能够在 35-45％的训练时间内实现相当的性能。

Dec, 2020

使用基于跨度的动态卷积来改进 BERT 的 ConvBERT

本文提出一种用于自然语言理解中的深度神经网络模型 ConvBERT，用于替换 BERT 中占用计算和存储的全局自我注意力块，以实现更高效的全局和局部语境学习，经实验证明，在各种下游任务中，ConvBERT 均能显著优于 BERT 及其变体，且训练成本更低。

Aug, 2020

使用混合池化网络和 Drop Mask 改进 BERT

本研究提出了一种融合了自注意力和池化网络以编码每个层中的不同上下文特征的 HybridBERT 模型，并提出了一种简单的 DropMask 方法，用于解决预训练和微调之间的不匹配问题。实验表明，HybridBERT 在预训练和迁移学习中均优于 BERT，并且 DropMask 改善了在各种掩码率下 BERT 的下游任务的准确性。

Jul, 2023

关注重点：BERT 是否需要中间层？

本文探讨了 BERT 模型中中间层对于下游任务的影响，证明减少中间层数量和修改模型结构对下游任务的微调准确性影响很小，同时可以减少模型参数数量和训练时间。通过核心对齐和探究性线性分类器验证了去除中间层对于微调精度的影响微小。

Dec, 2020