WSDMOct, 2019

Web 问答系统的两阶段多教师知识蒸馏模型压缩

TL;DR本文介绍了一种基于 Two-stage Multi-teacher Knowledge Distillation (TMKD) 的深度预训练与微调、模型压缩及知识蒸馏方法,以提升网络问答系统的效率。实验结果表明,该方法在保证准确性的同时,大幅提升模型推理速度。