Oct, 2020

BERT 的最优子结构提取

TL;DR通过对神经架构搜索的最新突破应用,我们从 Devlin 等人(2018)的 BERT 架构中提取出一组最优子集,称为 “Bort”,它的大小仅为原始 BERT-large 架构的 5.5%,网络大小为 16%。在 CPU 上快 7.9 倍,并取得了 0.3 %至 31%之间的性能提升。