基于多轮迭代偏好学习构建数学智能体

Sep, 2024

基于多轮迭代偏好学习构建数学智能体

Building Math Agents with Multi-Turn Iterative Preference Learning

Wei Xiong, Chengshuai Shi, Jiaming Shen, Aviv Rosenberg, Zhen Qin...

TL;DR本研究解决了现有直接偏好学习算法在多轮推理和外部工具集成中的不足。提出了一种针对数学推理任务的新型多轮直接偏好学习框架，利用代码解释器的反馈来优化模型性能。实验结果表明，该框架显著提升了多个语言模型在数学问题求解上的表现。

Abstract

Recent studies have shown that large Language Models' (LLMs) mathematical problem-solving capabilities can be enhanced by integrating external tools, such as Code Interpreters, and employing multi-turn Chain-of-T

发现论文，激发创造

揭示思维链背后的谜团：理论视角

研究表明Chain-of-Thought提示可以显著改善大型语言模型的性能，特别是在涉及数学或推理的复杂任务中。本文首先对这些问题的潜在机制进行了理论方面的探讨，然后通过构建的方式证明了带有CoT的自回归机器人可以解决基本算术方程问题和决策制定问题，并且具有动态编程方面的潜在应用。

May, 2023

推进具有偏好树的LLM推理通才

Eurus是一套针对推理进行优化的大型语言模型，通过基于Mistral-7B和CodeLlama-70B的微调，在数学、代码生成和逻辑推理问题的多种基准测试中取得了领先的结果。通过在五个任务上全面进行12项测试对比，Eurus-70B在LeetCode上达到了33.3%的一次通过准确率，并且在TheoremQA上达到了32.6%，这两个具有挑战性的基准测试远远超过了现有开源模型13.3%以上的性能。Eurus的强大性能主要归功于UltraInteract，这是我们专门为复杂推理任务设计的大规模、高质量的对齐数据集，可用于监督微调和偏好学习。通过对偏好学习算法进行深入探究，我们发现某些已建立的偏好学习算法在推理任务中的适用性较差，相比其在一般对话中的有效性。受此启发，我们推导出了一种新颖的奖励建模目标，与UltraInteract结合使用可获得强大的奖励模型。

Apr, 2024

迭代推理偏好优化

通过优化竞争产生的Chain-of-Thought (CoT)候选项之间的优先级，我们开发了一种迭代方法，通过优化导致正确答案的推理步骤的胜败来改进推理任务，这种方法在多个任务上取得了优于其他不使用其他数据集的Llama-2模型的性能。

Apr, 2024

蒙特卡洛树搜索通过迭代偏好学习提高推理能力

通过增强大型语言模型的推理能力，我们介绍了一种受AlphaZero成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据，将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性，我们结合了结果验证和逐步自我评估，不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明，我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外，我们的研究还深入探讨了训练和推理计算的权衡关系，为我们的方法如何有效地提高性能提供了见解。

May, 2024

MathChat：多轮交互中数学推理和指令遵循的基准评估

这篇论文介绍了一个专门设计用来评估大型语言模型在更广泛的数学任务上的MathChat基准测试，并观察到这些模型在单回合问题回答方面表现出色，但在需要持续推理和对话理解的复杂场景下性能显著下降。通过开发MathChat sync这样一个用于提升模型对话能力和指令跟随能力的合成对话型数学数据集，实验结果强调了使用类似MathChat sync这样多样化的对话指令微调数据集训练大型语言模型的必要性。作者认为这项工作为改进大型语言模型的多轮数学推理能力指明了一个有希望的方向，推动了更擅长交互式数学问题解决和实际应用的大型语言模型的发展。

May, 2024

数学推理的步骤级价值优化

我们引入了一种名为Step-level Value Preference Optimization (SVPO)的新算法，它使用蒙特卡洛树搜索（MCTS）自动对多步推理进行步骤级别的偏好注释，并从学习排序的角度训练一个显式值模型来复制隐式奖励模型的行为，从而提高大型语言模型的生成回报响应性能。实验证明，我们的方法在领域内和领域外的数学推理基准测试上达到了最先进的性能。

Jun, 2024

Step-DPO：Step-wise偏好优化长链推理的LLMs

我们提出了一种名为Step-DPO的简单、有效和数据高效的方法，它将每个推理步骤作为单位进行优化，而不是对答案进行整体评估。通过构建Step-DPO的数据集，我们观察到自动生成的数据比人类或GPT-4生成的数据更有效，我们的发现表明，只需10K个偏好数据对和少于500个Step-DPO训练步骤，即可使具有超过70B参数的模型在MATH方面的准确性提高近3%。值得注意的是，将Step-DPO应用于Qwen2-72B-Instruct时，在MATH和GSM8K的测试集上分别达到70.8%和94.0%的分数，超过了一系列闭源模型，包括GPT-4-1106、Claude-3-Opus和Gemini-1.5-Pro。

Jun, 2024

自我训练的语言模型用于算术推理

使用自动化反馈的语言模型可以在算术推理上实现改进，同时在线自我训练的优势表现出其在稳定性和鲁棒性上能够明显超过监督训练。

Jul, 2024

自我训练与直接偏好优化提升推理链条的能力

本研究解决了语言模型在数学推理任务中对高质量监督微调数据的需求问题，提出将自我训练与直接偏好优化相结合的新方法。研究发现，该方法能够有效提高小规模语言模型的推理能力，同时比依赖大型专有模型更具成本效益和可扩展性。

Jul, 2024

SIaM：自我提升的代码辅助大型语言模型数学推理

本研究解决了现有大型语言模型在数学问题求解中的局限性，尤其是对训练数据的过度依赖。提出了一种新颖的方法，通过代码基础的评论模型引导数据构建和质量控制，探索不同的对齐算法以实现模型的持续改进。实验结果显示，所提方案在英文和中文的各项基准测试中显著提高了模型的泛化能力。

Aug, 2024