Feb, 2024

关于大型预训练模型的任务特定蒸馏的优良实践

TL;DR大型预训练视觉模型在多样的识别任务上表现出显著的泛化能力。然而,现实世界中的应用通常需要针对特定问题的紧凑模型。本文针对这一目的,提出了各种知识蒸馏的变体,使得特定任务的紧凑模型(学生)能够从通用的大型预训练模型(教师)中学习。我们展示了近期预训练模型出色的鲁棒性和多功能性挑战了文献中已经建立起来的共同实践,需要一组新的最优准则来进行特定任务的蒸馏。为了解决下游任务中样本不足的问题,我们还展示了一种基于稳定扩散的 Mixup 变体,该策略补充了标准数据增强,消除了工程化的文本提示的需求,改善了通用模型向精简专用网络的蒸馏。