自我训练与直接偏好优化提升推理链条的能力

Jul, 2024

自我训练与直接偏好优化提升推理链条的能力

Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

Tianduo Wang, Shichen Li, Wei Lu

TL;DR本研究解决了语言模型在数学推理任务中对高质量监督微调数据的需求问题，提出将自我训练与直接偏好优化相结合的新方法。研究发现，该方法能够有效提高小规模语言模型的推理能力，同时比依赖大型专有模型更具成本效益和可扩展性。

Abstract

Effective training of Language Models (LMs) for Mathematical Reasoning tasks demands high-quality supervised fine-tuning data. Besides obtaining annotations from human experts, a common alternative is sampling fr

发现论文，激发创造

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过fine-tuning在多个任务上达到了SOTA水平。

Oct, 2022

民主化推理能力：从大型语言模型的个性化学习

通过多轮互动学习范式和自我反思学习，我们提出了一种定制化学习方法，从而将推理能力传授给较小的语言模型，以促进推理能力的开放和普及。

Oct, 2023

小型语言模型是否能帮助大型语言模型更好地进行推理？：LM引导下的思路链

我们引入了一种新颖的框架，LM-Guided CoT，它利用轻量级（即<1B）语言模型（LM）指导黑盒大型（即>10B）LM在推理任务中的工作。具体而言，轻量级LM首先为每个输入实例生成理论依据，接着使用冻结的大型LM根据轻量级LM生成的理论依据预测任务输出。我们的方法在资源利用上高效，只需要训练轻量级LM。我们通过知识蒸馏和强化学习来优化模型，其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准HotpotQA和2WikiMultiHopQA来评估我们的方法。实验结果表明，我们的方法在回答预测准确性方面优于所有基准方法。我们还发现，强化学习有助于模型生成更高质量的理论依据，并提高问答的性能。

Apr, 2024

小型语言模型需要强大的验证器来自我修正推理

在小型语言模型上进行自我纠正训练以提高推理能力，通过使用正确解决方案引导模型对不正确的回答进行批判，并使用生成的批评经过筛选后进行自我纠正理由的监督微调，实验证明在数学和常识推理方面的五个数据集上两种模型的自我纠正能力得到了提升，与GPT-4基于验证器的强配对时取得了显著的性能提升，但使用弱自验证器来确定何时进行更正存在一定的限制。

Apr, 2024

自我完善指导调优用于对齐语言模型中的推理

我们提出了自我改进指导调整方法，通过引导较小语言模型进行自我改进，以实现对推理能力的进一步发展。此方法通过在大型语言模型提供示范的基础上，将推理能力从较大语言模型传输到较小语言模型，然后使用优化策略使得被指导的模型自我改进能力。在常识与数学推理任务上的结果表明，该方法在领域内外场景均显著优于指导调整方法，并使得较小语言模型与较大语言模型的推理能力逐渐趋于一致。

May, 2024

蒙特卡洛树搜索通过迭代偏好学习提高推理能力

通过增强大型语言模型的推理能力，我们介绍了一种受AlphaZero成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据，将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性，我们结合了结果验证和逐步自我评估，不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明，我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外，我们的研究还深入探讨了训练和推理计算的权衡关系，为我们的方法如何有效地提高性能提供了见解。

May, 2024

数学推理的步骤级价值优化

我们引入了一种名为Step-level Value Preference Optimization (SVPO)的新算法，它使用蒙特卡洛树搜索（MCTS）自动对多步推理进行步骤级别的偏好注释，并从学习排序的角度训练一个显式值模型来复制隐式奖励模型的行为，从而提高大型语言模型的生成回报响应性能。实验证明，我们的方法在领域内和领域外的数学推理基准测试上达到了最先进的性能。

Jun, 2024

Step-DPO：Step-wise偏好优化长链推理的LLMs

我们提出了一种名为Step-DPO的简单、有效和数据高效的方法，它将每个推理步骤作为单位进行优化，而不是对答案进行整体评估。通过构建Step-DPO的数据集，我们观察到自动生成的数据比人类或GPT-4生成的数据更有效，我们的发现表明，只需10K个偏好数据对和少于500个Step-DPO训练步骤，即可使具有超过70B参数的模型在MATH方面的准确性提高近3%。值得注意的是，将Step-DPO应用于Qwen2-72B-Instruct时，在MATH和GSM8K的测试集上分别达到70.8%和94.0%的分数，超过了一系列闭源模型，包括GPT-4-1106、Claude-3-Opus和Gemini-1.5-Pro。

Jun, 2024

自我训练的语言模型用于算术推理

使用自动化反馈的语言模型可以在算术推理上实现改进，同时在线自我训练的优势表现出其在稳定性和鲁棒性上能够明显超过监督训练。

Jul, 2024

基于多轮迭代偏好学习构建数学智能体

本研究解决了现有直接偏好学习算法在多轮推理和外部工具集成中的不足。提出了一种针对数学推理任务的新型多轮直接偏好学习框架，利用代码解释器的反馈来优化模型性能。实验结果表明，该框架显著提升了多个语言模型在数学问题求解上的表现。

Sep, 2024