BriefGPT.xyz
Ask
alpha
关键词
logit standardization
搜索结果 - 1
CVPR
知识蒸馏中的 Logit 标准化
知识蒸馏通过使用共享的基于温度的软最大函数,从教师向学生传递软标签。然而,教师和学生之间的温度共享假设意味着在 logit 的范围和方差方面需要强制精确匹配。为了解决这个问题,我们提出将温度设定为 logit 的加权标准差,并在应用 sof
→
PDF
4 months ago
Prev
Next