关键词ensemble knowledge distillation
搜索结果 - 2
- 自监督语音模型的集成知识蒸馏
本文提出了一种多自监督语音模型集成的方法,通过使用层次平均聚合不同教师模型的表示,并为学生模型提出了多重预测头方法,从而大大提高了四个下游语音处理任务的性能,并在 SUPERB 基准的隐藏集轨道中取得了显著的成果。
- 统一而有效的集成知识蒸馏
本文提出了一种有效的集成知识蒸馏方法,该方法能够从多个教师模型学习未标记数据的知识,并据此训练单个学生模型。研究表明,通过考虑不同教师之间的预测差异以及样本难度,可以进一步提高蒸馏的效果。