BriefGPT.xyz
Ask
alpha
关键词
student-teacher agreement
搜索结果 - 1
优秀教师解释:解释增强的知识蒸馏
通过优化经典 KD 损失和教师与学生生成的解释的相似度,提出的解释增强型 KD(e^2KD)能够显著提高准确性和学生 - 教师一致性,并确保学生从教师那里得到正确的原因和相似的解释,同时能适应不同模型架构、训练数据量,甚至使用预计算的 “近
→
PDF
5 months ago
Prev
Next