Oct, 2020

加载所需:多语言 BERT 的较小版本

TL;DR本文探讨如何通过减少多语言模型中的词汇量来生成更小且性能相当的模型,研究结果表明,相比蒸馏的方法,此种方法能在保持性能的情况下,将模型总参数减少达 45% 左右。