BriefGPT.xyz
大模型
Ask
alpha
关键词
few teacher inference knowledge distillation
搜索结果 - 1
比较性知识蒸馏
在大规模预训练模型时代,知识蒸馏在保持性能的同时,将计算重的教师模型的智慧转移到轻量高效的学生模型中起到了重要作用。然而,传统的知识蒸馏假设经常对教师模型进行推理,这与成本高昂且往往是专有的大规模模型的现实越来越不符。针对这一问题,本文提出
→
PDF
8 months ago
Prev
Next