Sep, 2021

KroneckerBERT: 通过知识蒸馏学习预训练语言模型的 Kronecker 分解

TL;DR本文利用 Kronecker 分解技术对预训练语言模型进行压缩,在保证模型高通用性的同时,将模型大小压缩至原大小的 5%,并在多个 NLP 基准测试上实现更好的性能和全新的 out-of-distribution 鲁棒性表现。