BriefGPT.xyz
大模型
Ask
alpha
关键词
student model training
搜索结果 - 1
知识蒸馏下的 CTR 预测集成
本论文提出一种基于知识蒸馏(KD)的模型训练策略,通过将教师模型学到的知识传输给学生模型,简化深度神经网络(DNN)学生模型并实现了显著的精度提高,使用多个教师模型进行训练进一步提高了学生模型的准确性。包括教师门控以及蒸馏损失提前停止等创新
→
PDF
4 years ago
Prev
Next