BriefGPT.xyz
Ask
alpha
关键词
deep pre-training
搜索结果 - 2
WSDM
Web 问答系统的两阶段多教师知识蒸馏模型压缩
本文介绍了一种基于 Two-stage Multi-teacher Knowledge Distillation (TMKD) 的深度预训练与微调、模型压缩及知识蒸馏方法,以提升网络问答系统的效率。实验结果表明,该方法在保证准确性的同时,大
→
PDF
5 years ago
基于多任务知识蒸馏的模型压缩在 Web 规模问答系统中的应用
我们提出了一种多任务知识蒸馏模型,通过从多个教师模型中提取知识,向轻量级学生模型进行蒸馏,从而解决了将复杂模型应用于实际业务场景的问题,同时加速了模型推理并取得了比基线方法更好的结果以及与原始教师模型相当的结果。
PDF
5 years ago
Prev
Next