May, 2024

超越模仿:从推理涤纶中学习关键推理步骤的双重思维链

TL;DR使用基于错误的驱动关键推理步骤蒸馏(EDIT)方法,可以更有效地帮助小型语言模型学习重要的推理步骤,而不仅仅是简单的微调,验证了其在基准推理数据集上的有效性。