ACLMay, 2023

SCOTT: 自洽思维串讲压缩

TL;DR提出了一种知识蒸馏方法以学习从比自身大几个数量级的大型语言模型中生成一致合理的解释的小型自洽 Chain-of-Thought(CoT)模型,它使用教师模型生成的合理解释来学习学生模型,并使用对抗性约束来保证学生模型保持一致性和反事实推理,实验结果表明,这种方法可以更好地生成有利于提高性能的 CoT 解释。