TrimBERT: 为折衷而量身定制的 BERT 模型

Feb, 2022

TrimBERT: 为折衷而量身定制的 BERT 模型

TrimBERT: Tailoring BERT for Trade-offs

Sharath Nittur Sridhar, Anthony Sarah, Sairam Sundaresan

TL;DR本文介绍了一种方法：通过减少 BERT-Base 模型中的中间层数量来达到压缩模型、加快训练速度且不影响下游任务的准确性的效果，同时使用计算上更简单的技术代替自注意力层中的 softmax 操作并删除一半的层归一化层以进一步减少训练时间。

Abstract

Models based on bert have been extremely successful in solving a variety of natural language processing (nlp) tasks. Unfortunately, many of these large models require a great deal of computational resources and/o

bert nlp self-attention layers fine-tuning model compression

发现论文，激发创造

关注重点：BERT 是否需要中间层？

本文探讨了 BERT 模型中中间层对于下游任务的影响，证明减少中间层数量和修改模型结构对下游任务的微调准确性影响很小，同时可以减少模型参数数量和训练时间。通过核心对齐和探究性线性分类器验证了去除中间层对于微调精度的影响微小。

Dec, 2020

层层为重要且不同：每一层都重要 BERT

该研究介绍了针对数据高效预训练语言模型的一种新型 Transformer 体系结构修改方法。该方法通过参与 BabyLM 挑战赛，赢得了 extsc {strict} 和 extsc {strict-small} 两个赛道。我们的方法允许每个 Transformer 层选择处理前一层的哪些输出。经验证实验结果显示，该简单的修改具有潜力，且不同层的重要性不尽相同。

Nov, 2023

使用混合池化网络和 Drop Mask 改进 BERT

本研究提出了一种融合了自注意力和池化网络以编码每个层中的不同上下文特征的 HybridBERT 模型，并提出了一种简单的 DropMask 方法，用于解决预训练和微调之间的不匹配问题。实验表明，HybridBERT 在预训练和迁移学习中均优于 BERT，并且 DropMask 改善了在各种掩码率下 BERT 的下游任务的准确性。

Jul, 2023

通过主动学习对 BERT 进行微调，以提高低资源自然语言理解能力

本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法，通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明，通过最大化从未标记数据池中查询的模型的近似知识收益，可提高模型性能。最后，我们演示并分析了语言模型冻结层的好处，以减少可训练参数的数量，使其更适用于低资源环境。

Dec, 2020

通过注意力值压缩输入长度和生成文本

本文研究了 BERT 的注意力机制，探究了两个问题：如何使用注意力机制减少输入长度和如何将注意力用作条件文本生成的控制机制，并发现 BERT 的早期层对文本分类任务的关注度更高，其注意力和可以用于过滤给定序列的令牌，一定程度上减少了输入长度同时保持良好的测试准确性。

Mar, 2023

预训练 Transformer 模型删除层的影响

通过剪枝方法，本文旨在研究是否所有预训练模型的所有网络层都对下游任务有贡献，并观察剪枝对下游 GLUE 任务的影响，结果表明可将 BERT、RoBERTa 和 XLNet 模型剪枝 40％而保持最多 98％的原始性能，并证明我们的剪枝模型与使用知识蒸馏构建的模型在大小和性能方面相当。

Apr, 2020

低资源口语理解的瓶颈低秩变换器

本文介绍了如何使用变形器结构并应用群稀疏技术实现拥有较高精度、更小规模 SLU 模型的生成，从而避免使用预先训练的参数较多的大型模型。

Jun, 2022

通过自我集成和自我蒸馏提高 BERT 微调

本文提出了两种有效机制，即自我集成和自我蒸馏来改进 BERT 的微调，实验证明这些方法可以显着提高 BERT 的适应性。

Feb, 2020

揭示 BERT 的黑暗秘密

本研究基于自注意力机制进行 BERT 模型的定量及定性分析，发现模型的超参数化导致自注意力机制复用率高，不同自注意力机制对不同 NLP 任务影响不同，针对性关闭某些自注意力机制可以提升模型性能。

Aug, 2019

DistilBERT：BERT 的简化版 —— 更小、更快、更便宜、更轻

通过知识蒸馏的预训练阶段，可以将 BERT 模型的大小缩小 40％，同时保持 97％的语言理解能力并且速度提升 60％，这种方法被称为 DistilBERT，并可为边缘设备上的计算提供良好的性能

Oct, 2019