BriefGPT.xyz
Ask
alpha
关键词
multi-generational self-distillation
搜索结果 - 1
自我蒸馏作为实例特定标签平滑化
通过实验证明,多代自蒸馏能够在一定程度上提高模型的性能,之所以会出现这种情况,部分原因在于教学者预测的多样性。我们提出了一种新的教师 - 学员训练解释,即估计自适应正则化,这使得标签平滑的预测不确定性和预测多样性同样重要。我们还提出了一种新
→
PDF
4 years ago
Prev
Next