BriefGPT.xyz
大模型
Ask
alpha
关键词
weight-inherited distillation
搜索结果 - 1
面向任务无关的 BERT 压缩的权重继承蒸馏
本文介绍了一种基于 Weight-Inherited Distillation (WID) 的知识蒸馏方法,通过直接从教师模型继承权重实现对学生模型的压缩,避免了传统方法中需要设计额外对齐损失的问题,实验结果表明 WID 在 GLUE 和
→
PDF
a year ago
Prev
Next