Dec, 2020

关注重点:BERT 是否需要中间层?

TL;DR本文探讨了 BERT 模型中中间层对于下游任务的影响,证明减少中间层数量和修改模型结构对下游任务的微调准确性影响很小,同时可以减少模型参数数量和训练时间。通过核心对齐和探究性线性分类器验证了去除中间层对于微调精度的影响微小。