Jun, 2024

超越答案所学:基于反思的数学推理语言模型训练

TL;DR监督微调通过各种数学推理任务增强了语言模型的问题解决能力。我们的研究引入了一种新的技术 —— 反思增强,通过嵌入问题反思来培养更深入的问题理解,从而不仅提高在标准场景下的性能,还在需要反思性思考的复杂场景中发挥作用。