Sep, 2024

基于多轮迭代偏好学习构建数学智能体

TL;DR本研究解决了现有直接偏好学习算法在多轮推理和外部工具集成中的不足。提出了一种针对数学推理任务的新型多轮直接偏好学习框架,利用代码解释器的反馈来优化模型性能。实验结果表明,该框架显著提升了多个语言模型在数学问题求解上的表现。