Jul, 2022

SDBERT: SparseDistilBERT,一个更快、更小的 BERT 模型

TL;DR本文介绍了一种新的 Transformer 架构 - SparseDistilBERT,使用了稀疏注意力机制和知识蒸馏技术 (KD)。将稀疏注意力机制与 KD 技术相结合可以降低模型的复杂度,本文实现的 SparseDistilBERT 在保留 97% 性能的前提下只使用了原 BERT 模型大小的 40% 且训练时间缩短了 40%。