Dec, 2023

DMT:多个自监督教师进行的全面蒸馏

TL;DR通过利用多个自监督模型的优势,压缩预训练模型,并在分类任务和密集任务中显著提高性能。