Oct, 2024

超级纠正:用错误驱动的洞察监督和纠正语言模型

TL;DR本研究解决了小型语言模型在复杂数学推理中无法有效识别和纠正推理错误的问题。我们提出了一种新颖的双阶段框架SuperCorrect,利用大型教师模型来监督和纠正学生模型的推理过程,显著提高了其自我纠正能力。实验表明,SuperCorrect-7B模型在MATH和GSM8K基准测试中超过了现有最强模型,取得了新的最优性能。