Feb, 2024

预训练模型知识蒸馏的实用洞见

TL;DR通过对知识蒸馏 (KD) 技术的综合比较研究,本文填补了目前研究中的空白,揭示了在协作与联邦学习框架中利用预训练模型中的知识蒸馏技术的最佳超参数设置,通过降低通信回合和加速训练过程,提高模型性能的实用框架。