ACLJun, 2024

教学助理在低预算场景中提高从不完美教师模型的知识蒸馏

TL;DR通过提出一个三组件框架,利用自洽性、鉴别性和教师的不确定性作为学生培训的三种信号,我们在资源受限、教师性能不完美的场景中提高了样本效率。实验证明,相较于没有任何信号进行微调的情况,我们提出的两阶段框架平均带来了 20.79% 左右的相对提升,适用于四个复杂推理任务。