Apr, 2024

小型语言模型需要强大的验证器来自我修正推理

TL;DR在小型语言模型上进行自我纠正训练以提高推理能力,通过使用正确解决方案引导模型对不正确的回答进行批判,并使用生成的批评经过筛选后进行自我纠正理由的监督微调,实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升,与 GPT-4 基于验证器的强配对时取得了显著的性能提升,但使用弱自验证器来确定何时进行更正存在一定的限制。