Jan, 2023

NarrowBERT: 增强遮蔽语言模型的预训练和推理速度

TL;DR本文介绍了一种修改的transformer编码器--NarrowBERT,其通过使自注意力查询和前向层仅在预训练期间的屏蔽令牌上操作,从而增加了掩码语言模型预训练的吞吐量。 此外,本文还显示,与MNLI等句子编码任务相比,NarrowBERT在推理时间的吞吐量提高了多达3.5倍,性能降低最小(或没有),并且在IMDB,亚马逊评论分类和CoNLL NER任务上的NarrowBERT表现也与标准BERT相当。