Feb, 2022

TrimBERT: 为折衷而量身定制的 BERT 模型

TL;DR本文介绍了一种方法:通过减少 BERT-Base 模型中的中间层数量来达到压缩模型、加快训练速度且不影响下游任务的准确性的效果,同时使用计算上更简单的技术代替自注意力层中的 softmax 操作并删除一半的层归一化层以进一步减少训练时间。