NIPSMar, 2015

神经网络知识蒸馏

TL;DR通过将一个 ensemble 中的知识压缩成单个模型的方法,我们可以显著提高基于 MNIST 数据集的模型性能并将这种方法应用于商业系统的声学模型,同时我们还提出了一种由专家模型和完整模型组成的新型 ensemble。