如何用学术预算训练 BERT
本文介绍了一种修改的 transformer 编码器 --NarrowBERT,其通过使自注意力查询和前向层仅在预训练期间的屏蔽令牌上操作,从而增加了掩码语言模型预训练的吞吐量。 此外,本文还显示,与 MNLI 等句子编码任务相比,NarrowBERT 在推理时间的吞吐量提高了多达 3.5 倍,性能降低最小(或没有),并且在 IMDB,亚马逊评论分类和 CoNLL NER 任务上的 NarrowBERT 表现也与标准 BERT 相当。
Jan, 2023
本文探讨了在数据点少于 1,000 的低资源环境下利用基于预训练 Transformer 的语言模型的微调方法,通过利用基于池的主动学习加速训练同时保持标记新数据的成本不变。实验结果表明,通过最大化从未标记数据池中查询的模型的近似知识收益,可提高模型性能。最后,我们演示并分析了语言模型冻结层的好处,以减少可训练参数的数量,使其更适用于低资源环境。
Dec, 2020
本研究进行了 BERT 预训练的复现研究,并对其关键的超参数和训练数据大小的影响进行了测量,发现 BERT 被显著低估,并且可以超过其之后发布的每个模型的表现,提高了以前被忽视的设计选择的重要性,并引发了对最近报道的改进的疑问。
Jul, 2019
本研究探讨了两种技术,以在低资源设置中训练单语言 TLM,结果表明 MicroBERT 模型能够对下游任务评估进行显著改善。
Dec, 2022
本研究提出了一种基于预训练模型的文本简化方法,通过新的掩码语言建模机制和小规模文本数据集的持续预训练,最终获得了一种名为 SimpleBERT 的模型,该模型在词汇简化和句子简化任务中均超过了 BERT,并在多个数据集上取得了最先进的结果。此外,SimpleBERT 可以无需修改地替换现有的简化模型。
Apr, 2022
本文介绍了 ExtremeBERT,一款用于加速和定制 BERT 预训练的工具包,旨在为研究界和工业界提供易于使用的 BERT 预训练工具包,以便使用有限资源在自定义数据集上训练流行语言模型。实验表明,与原始 BERT 论文相比,使用我们的工具包达到相同或更好的 GLUE 分数的时间成本分别比 BERT Base 和 BERT Large 更低 $6 imes$ 和 $9 imes$ 倍。文档和代码在 Apache-2.0 许可下发布在此 https URL 上。
Nov, 2022
通过动态调度遮蔽率,从 30%线性减少到 15%,与原始 BERT 模型的 15%固定遮蔽率相比,我们发现可以提高 BERT-base 的平均 GLUE 准确度 0.46%,从而改善遮蔽语言模型的质量并在预训练中实现高达 1.89 倍的加速。
May, 2023
本文研究了使用单个消费级 GPU 只需训练一天的用遮蔽语言模型完全从头开始训练的 transformer-based 语言模型的下游性能,同时提供了一个经过修改的预训练流程,并提供证据表明即使在有限的计算环境下,性能也与大型计算环境下观察到的缩放定律密切相关。
Dec, 2022
介绍了一种新的语言表示模型 BERT,可以通过预训练深度双向表示生成模型从未标记的文本中学习,通过微调可用于广泛的任务,包括自然语言处理。
Oct, 2018
本文提出了一种有效的预训练语言模型利用方法,其中利用二进制选择性蒙版来代替微调的方法对预训练权重进行修改。对 Bert 和 Roberta 模型进行掩模和微调的广泛评估表明,我们的掩模方案在执行多个任务时具有可比性的性能,却具有更小的内存占用。通过本文内在评估,我们展示了由掩模语言模型计算的表征编码了解决下游任务所需的信息。分析损失景观,我们展示了掩蔽和微调能够生成几乎具有恒定测试准确度的线段相连的值,证实了掩蔽是微调的有效替代方法。
Apr, 2020