May, 2024

自我完善指导调优用于对齐语言模型中的推理

TL;DR我们提出了自我改进指导调整方法,通过引导较小语言模型进行自我改进,以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上,将推理能力从较大语言模型传输到较小语言模型,然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明,该方法在领域内外场景均显著优于指导调整方法,并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。