Mar, 2023

oBERTa: 通过改进初始化、蒸馏和修剪机制提高稀疏转移学习的效果

TL;DR这篇论文介绍了 oBERTa 语言模型的范围,它是一组易于使用的语言模型,允许自然语言处理从业者在不具备模型压缩专业知识的情况下获得 3.8 到 24.3 倍更快的模型,oBERTa 扩展了现有的剪枝、知识蒸馏和量化工作,并利用了冻结嵌入以改善知识蒸馏,在广泛的转移任务中提供更高的准确性。