推进具有偏好树的 LLM 推理通才

Apr, 2024

Advancing LLM Reasoning Generalists with Preference Trees

Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang...

TL;DREurus 是一套针对推理进行优化的大型语言模型，通过基于 Mistral-7B 和 CodeLlama-70B 的微调，在数学、代码生成和逻辑推理问题的多种基准测试中取得了领先的结果。通过在五个任务上全面进行 12 项测试对比，Eurus-70B 在 LeetCode 上达到了 33.3% 的一次通过准确率，并且在 TheoremQA 上达到了 32.6%，这两个具有挑战性的基准测试远远超过了现有开源模型 13.3% 以上的性能。Eurus 的强大性能主要归功于 UltraInteract，这是我们专门为复杂推理任务设计的大规模、高质量的对齐数据集，可用于监督微调和偏好学习。通过对偏好学习算法进行深入探究，我们发现某些已建立的偏好学习算法在推理任务中的适用性较差，相比其在一般对话中的有效性。受此启发，我们推导出了一种新颖的奖励建模目标，与 UltraInteract 结合使用可获得强大的奖励模型。

Abstract

We introduce eurus, a suite of large language models (LLMs) optimized for reasoning. Finetuned from Mistral-7B and CodeLlama-70B,

eurus large language models reasoning benchmarking preference learning

发现论文，激发创造

借助基于树状偏好学习的大型语言模型推进过程验证

基于大型语言模型的树形偏好学习验证器 (Tree-PLV) 通过构建推理树并收集步骤级成对数据进行优先级训练，以更精确地评估完整的推理路径，从而实现在算术和常识推理任务上显著优于现有基准的性能提升。

Jun, 2024

蒙特卡洛树搜索通过迭代偏好学习提高推理能力

通过增强大型语言模型的推理能力，我们介绍了一种受 AlphaZero 成功策略启发的增量式偏好学习方法。我们利用蒙特卡洛树搜索 (MCTS) 迭代收集偏好数据，将实例级奖励分解为更精细的步骤级信号。为了增强中间步骤的一致性，我们结合了结果验证和逐步自我评估，不断更新新生成数据的质量评估。该算法采用直接偏好优化 (DPO) 使用这些新生成的步骤级偏好数据更新语言模型策略。对各种算术和常识推理任务进行的广泛评估表明，我们的方法在准确性方面相比现有模型取得了显著的性能提升。此外，我们的研究还深入探讨了训练和推理计算的权衡关系，为我们的方法如何有效地提高性能提供了见解。

May, 2024

在科学问题评分中使用思维树上的优化偏好来校准 LLMs 生成理由

我们提出了一种新的框架，能够生成更加忠实的合理性解释，并且与基于分类器的黑盒评分系统的性能相匹配。我们通过查询大型语言模型产生思考树，并从每个思考树路径总结中间评估决策，以创建合成的理由数据和理由偏好数据，通过两步训练过程：有监督的微调和偏好优化，利用生成的合成数据来校准语言模型。广泛的实验结果表明，与先前的工作相比，我们的框架在 QWK 分数上提升了 38% 的评估性能，同时生成了更高质量的合理性解释，这一点被人类评估者和语言模型所认可。我们的工作揭示了利用从思考树路径获得的合成偏好数据进行偏好优化的有效性。

Jun, 2024

推理轨迹上的偏好优化

这篇论文提出使用偏好优化方法来提高语言模型的推理性能，通过在思维链中应用这些方法，可以改进语言模型在推理任务中的表现。借助理由追踪数据集，我们提出了两种补充方案：数字损坏和弱语言模型提示。这种方法在 Falcon2-11B 和 Mistral-7B 的 GSM8K、AQuA-RAT 和 ARC 基准测试中提高了准确性，例如在 GSM8K 基准测试中，准确率相对提高了 8.47%，而不需要任何额外的注释。这项工作表明，在推理任务中创建更多的推理追踪数据集将进一步提升语言模型的性能。

Jun, 2024

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

LLM 推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

语言模型可作为逻辑求解器

LoGiPT 是一种新颖的语言模型，通过直接模拟逻辑求解器的推理过程并严格遵守求解器的语法规则，绕过分析错误，并在竞争的语言模型上表现出优异的性能。

Nov, 2023

LLMs 能否通过程序在复杂环境进行推理？

大型语言模型（LLMs）在解决程序推理问题方面显示出了出色的能力。通过引入 “reasoning in the wild” 任务并使用一个包含详细解决方案的大型策略引导轨迹数据集，我们在更真实的场景中评估了 LLMs 的推理能力，揭示了其存在的关键限制。

Jun, 2024

使用大型语言模型进行可解释的逻辑推理的 Selection-Inference 方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022