Feb, 2024

微调预训练模型时应复习哪些预训练样本?

TL;DR通过轻量级、易于实现的抽样方案 mix-cd,可以有效地识别并优先处理遗忘样本(即 collateral damage),从而减轻预训练知识在微调过程中的遗忘问题,并无需额外的计算成本。