通过协作验证扩展推理计算来改善大语言模型推理

Oct, 2024

通过协作验证扩展推理计算来改善大语言模型推理

Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification

Zhenwen Liang, Ye Liu, Tong Niu, Xiangliang Zhang, Yingbo Zhou...

TL;DR本研究解决了大语言模型在复杂任务（如数学和代码推理）中一致性和准确性不足的问题。通过生成多个推理路径并引入验证器评估和排序输出的正确性，提出了一种新的协作方法结合了逐步推理和可执行程序推理。实验结果表明，该方法显著提升了推理验证的准确性和可靠性，潜在地推动了现有大语言模型的性能。

Abstract

Despite significant advancements in the general capability of Large Language Models (LLMs), they continue to struggle with consistent and accurate Reasoning, especially in complex tasks such as mathematical and c

发现论文，激发创造

大型语言模型是具有自我验证功能的推理器

提出了一种名为自验证的方法，该方法使用推理链的结论作为条件建立新的样本，并要求大型语言模型重新预测原始条件，从而降低了多任务精度误差。经过大量实验验证，此方法可以使大型语言模型避免出现不正确的推理链干扰，并实现具有竞争力的推理性能，可用于算术和逻辑推理数据集的有限次学习。

Dec, 2022

增强大型语言模型的推理能力：一种基于图形的验证方法

我们引入了一种基于图的方法来增强大型语言模型的推理能力，通过分析和验证由LLMs生成的解决方案，我们的实验结果表明，我们的基于图的验证方法不仅显著提高了LLMs的推理能力，而且在提高这些模型的推理性能方面优于现有的验证程序。

Aug, 2023

面向关系推理的LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

LLM推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

链式思维引导的通用验证

通过探索不同的思维链和验证推理过程中的各个步骤，我们提出了三个模型应遵循的原则（相关性、数学准确性和逻辑一致性），并将这些原则应用于大型语言模型的推理步骤，以提高最终生成结果的准确性。通过使用困惑度作为额外的验证器来引导高质量解决方案的生成，我们在4种不同类型的推理任务上评估了我们的方法，涵盖了共计9个不同的数据集。实验证明，我们的方法始终优于基准生成，并且在9个数据集中的6个数据集中，优于最佳的N个采样方法。

Apr, 2024

深度研究逻辑推理与LLM：工具选择的重要性

通过将大型语言模型 (LLMs) 与各种符号求解器相结合，我们对 Z3、Pyke 和 Prover9 三个符号求解器的性能进行实验证明，其中与 LLMs 相结合时，Pyke 的性能明显低于 Prover9 和 Z3，Z3 的总体准确性略高于 Prover9，但 Prover9 能够处理更多问题。

Jun, 2024

评估大型语言模型的数学推理能力：重点关注错误识别和纠正

我们通过定义四个评估任务，并设计多样的提示来全面评估十一种代表性的LLM模型，从考官的角度出发，为错误识别和修正提供了新的数据集和注释的错误类型和步骤。研究结果表明GPT-4在所有模型中表现最佳，而开源模型LLaMA-2-7B的能力与闭源模型GPT-3.5和Gemini Pro相当。尤其是计算错误被证明是最具挑战性的错误类型。此外，使用错误类型提示LLM可以将平均修正准确率提高47.9%。这些结果揭示了开发LLM的数学推理能力的潜在方向。

Jun, 2024

CLR-Fact：评估大语言模型在事实知识上的复杂逻辑推理能力

本研究解决了大语言模型在复杂逻辑推理中的能力不足。通过自动生成复杂推理问题的新基准，我们发现通过显式的思维链提示可以显著提高模型的推理性能。此外，我们揭示了模型在集合并运算方面表现良好，但在集合交集运算方面面临重大挑战，这对于逻辑推理至关重要。

Jul, 2024

自动定理证明器帮助提高大型语言模型的推理能力

本文解决了大型语言模型在逻辑推理任务中准确性不足的问题。研究提出了一种神经符号架构，通过将LLM作为翻译前端并结合自动推理引擎来解决逻辑问题，实现了基于自动定理证明器的语义错误修正。结果表明，该方法显著减少了语义错误，提高了LLM的推理准确性。

Aug, 2024

将自我修正嵌入大型语言模型的固有能力以增强数学推理

本研究解决了大型语言模型在数学推理中面临的准确性问题，通过提出一种新机制“自我修正链”(CoSC)，使模型能够自我验证和修正输出。这一迭代的自我修正过程显著提升了模型在数学推理任务中的表现，特别是在传统数学数据集上取得了超过现有知名模型的成果。

Oct, 2024