ICLRApr, 2024

关于蒸馏的令人惊讶的疗效作为替代预训练小模型的研究

TL;DR我们提出了一种针对小模型的训练方法,不需要吸收预训练的成本,却能获得相同的性能,并且通过知识蒸馏与对比学习的连接,能够有效地降低计算成本,提高训练速度,同时通过数据增强进一步改善性能。