Sep, 2021
KroneckerBERT: 通过知识蒸馏学习预训练语言模型的 Kronecker 分解
KroneckerBERT: Learning Kronecker Decomposition for Pre-trained Language
Models via Knowledge Distillation
TL;DR本文利用 Kronecker 分解技术对预训练语言模型进行压缩,在保证模型高通用性的同时,将模型大小压缩至原大小的 5%,并在多个 NLP 基准测试上实现更好的性能和全新的 out-of-distribution 鲁棒性表现。