Sep, 2023

MBR 和 QE 微调:训练时间中最佳和最昂贵解码方法的蒸馏

TL;DR通过在推论阶段使用高效解码算法并在训练阶段提炼质量收益,提出了 MBR(最小贝叶斯风险)微调和 QE(质量评估)微调方法,通过使用自我训练模型和外部 LLM(语言模型)作为教师模型,这些微调方法在自然语言生成(NLG)任务中达到了比人生成参考文献更好的结果,且能保持推论过程的高效性。