推理轨迹上的偏好优化

Jun, 2024

PORT: Preference Optimization on Reasoning Traces

Salem Lahlou, Abdalgader Abubaker, Hakim Hacid

TL;DR这篇论文提出使用偏好优化方法来提高语言模型的推理性能，通过在思维链中应用这些方法，可以改进语言模型在推理任务中的表现。借助理由追踪数据集，我们提出了两种补充方案：数字损坏和弱语言模型提示。这种方法在 Falcon2-11B 和 Mistral-7B 的 GSM8K、AQuA-RAT 和 ARC 基准测试中提高了准确性，例如在 GSM8K 基准测试中，准确率相对提高了 8.47%，而不需要任何额外的注释。这项工作表明，在推理任务中创建更多的推理追踪数据集将进一步提升语言模型的性能。

Abstract

preference optimization methods have been successfully applied to improve not only the alignment of large language models (LLMs) with human values, but also specific natural language tasks such as summarization a

preference optimization methods reasoning performances language models reasoning traces informal reasoning tasks

发现论文，激发创造

迭代推理偏好优化

通过优化竞争产生的 Chain-of-Thought (CoT) 候选项之间的优先级，我们开发了一种迭代方法，通过优化导致正确答案的推理步骤的胜败来改进推理任务，这种方法在多个任务上取得了优于其他不使用其他数据集的 Llama-2 模型的性能。

Apr, 2024

在科学问题评分中使用思维树上的优化偏好来校准 LLMs 生成理由

我们提出了一种新的框架，能够生成更加忠实的合理性解释，并且与基于分类器的黑盒评分系统的性能相匹配。我们通过查询大型语言模型产生思考树，并从每个思考树路径总结中间评估决策，以创建合成的理由数据和理由偏好数据，通过两步训练过程：有监督的微调和偏好优化，利用生成的合成数据来校准语言模型。广泛的实验结果表明，与先前的工作相比，我们的框架在 QWK 分数上提升了 38% 的评估性能，同时生成了更高质量的合理性解释，这一点被人类评估者和语言模型所认可。我们的工作揭示了利用从思考树路径获得的合成偏好数据进行偏好优化的有效性。

Jun, 2024

蒙特卡洛树搜索通过迭代偏好学习提高推理能力

通过增强大型语言模型的推理能力，我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据，将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性，我们结合了结果验证和逐步自我评估，不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明，我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外，我们的研究还深入探讨了训练和推理计算的权衡关系，为我们的方法如何有效地提高性能提供了见解。

May, 2024

优化偏好链：改进 LLMs 中的思维链推理

通过 fine-tuning LLMs，利用 tree-of-thought 方法构建的搜索树，实现了链式思考解码 (CoT) 在复杂问题求解中取得类似或更好性能的成果，避免了大量的推理负担。

Jun, 2024

通过轨迹收集和过程奖励合成学习基于规划的推理

通过直接优化收集到的经验轨迹，我们提出一个基于规划的推理学习框架，以解决大型语言模型在复杂推理任务中出现的问题，并通过具体的过程奖励排名来提高生成推理过程的可靠性和可信度。

Feb, 2024

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在 4 种不同类型的推理任务上评估了我们的方法，涵盖了共计 9 个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在 9 个数据集中的 6 个数据集中，优于最佳的 N 个采样方法。

Apr, 2024

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

MAPO：通过多语言对齐优化推进多语言推理

通过采用一种对齐作为优选优化框架，我们在非中心语言中提高了推理能力，推理一致性得到了改善，并通过迭代 DPO 进一步优化了模型的多语言数学推理能力。

Jan, 2024

我们能为错误答案检测逐步验证吗？

通过对推理链和性能的关系的研究，我们引入了一个专门探索推理链与各个领域不同推理任务性能之间关系的基准 R2PE，该基准旨在通过推理步骤来衡量大型语言模型的最终输出的错误性。我们提出了一种过程识别得分（PDS）框架，充分利用多个推理链的信息，相比答案检查基准线，平均提高了 R2PE 下所有 45 个子集的 F1 得分约 5.1％。我们进一步展示了 PDS 在提升开放领域问答准确性方面的功效。

Feb, 2024

高效知识路径的推理：知识图引导领域问题回答的大型语言模型

通过在知识图谱（KG）上选择推理路径并结合思维链（CoT）和 PageRank 的子图检索方法，本文整合和优化了一个基于大型语言模型（LLM）的管道，可以减少对 LLM 的依赖。最终，RoK 证明了使用较少的 LLM 调用可以达到相同的结果。

Apr, 2024