BriefGPT.xyz
Ask
alpha
关键词
early readout mechanism
搜索结果 - 1
利用早期结果来调控蒸馏中的特征偏倚
深度网络在现实世界的监督学习任务中往往学习到伪特征 - 标签相关性,而蒸馏中学生模型的表征能力可能比相应的教师模型低,我们提出了一种新颖的早期输出机制,通过使用网络较早层的表征来尝试预测标签,这些早期输出可以自动识别出形式为自信但错误的预测
→
PDF
8 months ago
Prev
Next