Jul, 2022

弹性异构计算资源下的大规模知识蒸馏

TL;DR本文提出了一种基于弹性计算资源的深度学习压缩方法,即 EDL-Dist,可用于从大型深度模型创建紧凑的学生模型,支持训练和推理过程的容错性,并且其吞吐量比在线知识蒸馏基准方法提高了 3.125 倍,而精度相当或更高。