如何用学术预算训练 BERT

Apr, 2021

How to Train BERT with an Academic Budget

Peter Izsak, Moshe Berchansky, Omer Levy

TL;DR本文描述了一种通过软件优化、设计选择和超参数调整，在低端深度学习服务器上预训练掩蔽语言模型的方法，并证明了产生的模型在 GLUE 任务中具有与 BERT-base 相当的竞争力，预训练成本仅为原始费用的一小部分。

Abstract

While large language models a la bert are used ubiquitously in NLP, pretraining them is considered a luxury that only a few well-funded industry labs can afford. How can one train such models with a more modest b

language model pretraining masked language model hyperparameter tuning bert

发现论文，激发创造

NarrowBERT: 增强遮蔽语言模型的预训练和推理速度

本文介绍了一种修改的 transformer 编码器 --NarrowBERT，其通过使自注意力查询和前向层仅在预训练期间的屏蔽令牌上操作，从而增加了掩码语言模型预训练的吞吐量。此外，本文还显示，与 MNLI 等句子编码任务相比，NarrowBERT 在推理时间的吞吐量提高了多达 3.5 倍，性能降低最小（或没有），并且在 IMDB，亚马逊评论分类和 CoNLL NER 任务上的 NarrowBERT 表现也与标准 BERT 相当。

Jan, 2023

通过主动学习对 BERT 进行微调，以提高低资源自然语言理解能力

本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法，通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明，通过最大化从未标记数据池中查询的模型的近似知识收益，可提高模型性能。最后，我们演示并分析了语言模型冻结层的好处，以减少可训练参数的数量，使其更适用于低资源环境。

Dec, 2020

RoBERTa: 一个稳健优化的 BERT 预训练方法

本研究进行了 BERT 预训练的复现研究，并对其关键的超参数和训练数据大小的影响进行了测量，发现 BERT 被显著低估，并且可以超过其之后发布的每个模型的表现，提高了以前被忽视的设计选择的重要性，并引发了对最近报道的改进的疑问。

Jul, 2019

MicroBERT：低资源单语 BERT 的参数减少和多任务学习的有效训练

本研究探讨了两种技术，以在低资源设置中训练单语言 TLM，结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。

Dec, 2022

SimpleBERT：一种预训练模型，学习生成简单单词

本研究提出了一种基于预训练模型的文本简化方法，通过新的掩码语言建模机制和小规模文本数据集的持续预训练，最终获得了一种名为 SimpleBERT 的模型，该模型在词汇简化和句子简化任务中均超过了 BERT，并在多个数据集上取得了最先进的结果。此外，SimpleBERT 可以无需修改地替换现有的简化模型。

Apr, 2022

ExtremeBERT：定制 BERT 预训练加速的工具包

本文介绍了 ExtremeBERT，一款用于加速和定制 BERT 预训练的工具包，旨在为研究界和工业界提供易于使用的 BERT 预训练工具包，以便使用有限资源在自定义数据集上训练流行语言模型。实验表明，与原始 BERT 论文相比，使用我们的工具包达到相同或更好的 GLUE 分数的时间成本分别比 BERT Base 和 BERT Large 更低 $6 imes$ 和 $9 imes$ 倍。文档和代码在 Apache-2.0 许可下发布在此 https URL 上。

Nov, 2022

用于 MLM 预训练的动态掩码比率调度

通过动态调度遮蔽率，从 30％线性减少到 15％，与原始 BERT 模型的 15％固定遮蔽率相比，我们发现可以提高 BERT-base 的平均 GLUE 准确度 0.46％，从而改善遮蔽语言模型的质量并在预训练中实现高达 1.89 倍的加速。

May, 2023

使用单个 GPU 在一天内训练语言模型

本文研究了使用单个消费级 GPU 只需训练一天的用遮蔽语言模型完全从头开始训练的 transformer-based 语言模型的下游性能，同时提供了一个经过修改的预训练流程，并提供证据表明即使在有限的计算环境下，性能也与大型计算环境下观察到的缩放定律密切相关。

Dec, 2022

BERT: 深度双向变换器的预训练用于语言理解

介绍了一种新的语言表示模型 BERT，可以通过预训练深度双向表示生成模型从未标记的文本中学习，通过微调可用于广泛的任务，包括自然语言处理。

Oct, 2018

掩蔽：预训练语言模型的有效替代方法

本文提出了一种有效的预训练语言模型利用方法，其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明，我们的掩模方案在执行多个任务时具有可比性的性能，却具有更小的内存占用。通过本文内在评估，我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观，我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值，证实了掩蔽是微调的有效替代方法。

Apr, 2020