May, 2021

使用代理目标扩展集成分布蒸馏到多类问题

TL;DR这篇论文提出了一种称为 “Ensemble Distribution Distillation” 的机器学习方法,通过训练 Dirichlet 分布来捕捉整个集成预测和不确定性估计。为了解决在大规模任务中 Dirichlet log-likelihood 的梯度问题,作者提出了一种新的训练目标来最小化 Ensemble Distribution Distillation 的反向 KL 散度,从而在 ImageNet 和 WMT17 En-De 数据集上展示了它的优越性。