Nov, 2020
知识蒸馏下的 CTR 预测集成
Ensembled CTR Prediction via Knowledge Distillation
Jieming Zhu, Jinyang Liu, Weiqi Li, Jincai Lai, Xiuqiang He...
TL;DR本论文提出一种基于知识蒸馏(KD)的模型训练策略,通过将教师模型学到的知识传输给学生模型,简化深度神经网络(DNN)学生模型并实现了显著的精度提高,使用多个教师模型进行训练进一步提高了学生模型的准确性。包括教师门控以及蒸馏损失提前停止等创新方法在内的多个实验表明了基于知识蒸馏的训练策略的有效性。