Jul, 2024

自我训练与直接偏好优化提升推理链条的能力

TL;DR本研究解决了语言模型在数学推理任务中对高质量监督微调数据的需求问题,提出将自我训练与直接偏好优化相结合的新方法。研究发现,该方法能够有效提高小规模语言模型的推理能力,同时比依赖大型专有模型更具成本效益和可扩展性。