Jun, 2020

自我蒸馏作为实例特定标签平滑化

TL;DR通过实验证明,多代自蒸馏能够在一定程度上提高模型的性能,之所以会出现这种情况,部分原因在于教学者预测的多样性。我们提出了一种新的教师 - 学员训练解释,即估计自适应正则化,这使得标签平滑的预测不确定性和预测多样性同样重要。我们还提出了一种新的实例特定标签平滑方法,并提供了实验证明其在许多情况下优于传统标签平滑方法。