关于提高语言模型推理能力的进展

Jun, 2022

关于提高语言模型推理能力的进展

On the Advance of Making Language Models Better Reasoners

Yifei Li, Zeqi Lin, Shizhuo Zhang, Qiang Fu, Bei Chen...

TL;DR本文介绍了一种名为 DiVeRSe 的方法，通过增加提示多样性和引入验证器来进一步提高大型语言模型的推理能力，成功地在八个基准测试中的六个上达到了最新的最先进性能，其中包括 GSM8K。

Abstract

large language models such as GPT-3 and PaLM have shown remarkable performance in few-shot learning. However, they still struggle with reasoning tasks such as the arithmetic benchmark GSM8K. Recent advances delib

large language models few-shot learning reasoning tasks gsm8k benchmark diverse

发现论文，激发创造

大型语言模型的思维多样性提高推理能力

通过改变输入提示的多样性，并借助多种演绎方法，我们提出的 DIV-SE 和 IDIV-SE 方法在不改变解码过程的前提下，通过多种推理调用和单次推理调用中的多样提示，在固定生成预算的情况下，在多个推理基准和最新的计划基准上，优于现有基线，并在最有挑战的 4/5 Blocksworld 任务上超过先前报告的最高准确率至少 29.6 个百分点，从而改进了 LLM 推理的准确性 - 成本权衡的帕累托前沿。

Oct, 2023

训练验证程序员解决数学应用题

介绍一个 8.5K 高质量的语言多样的小学数学问题数据集 GSM8K，表明即便是最大的变压器模型仍然无法在多步数学推理方面实现高的测试性能，提出使用 verifiers 验证模型的正确性并通过排名选择最优解来提高性能。

Oct, 2021

DiversiGATE：一种可靠的大型语言模型综合框架

本文介绍了 DiversiGATE，一个统一的框架，它 consolodates 了 LLM 验证的各种方法，并且提出了一种符合 DiversiGATE 框架的新型 SelfLearner 模型，可以从自己的输出中学习并不断改善性能。通过实验，表明 SelfLearner 的有效性，对 GSM8K 基准测试的改进达到了 54.8％-> 61.8％。

Jun, 2023

大型语言模型推理的分而治之

大型语言模型在处理多项选择题时，通过引入分治策略并使用先验知识推理和选择过滤等方法，能够显著提高推理能力，并在算术、常识和逻辑任务中获得显著改进。

Jan, 2024

自然语言的多步演绎推理：基于未知分布泛化的实证研究

本文提出了一种基于神经内存网络的迭代神经推理网络，使用门控机制进行推理，旨在解决多步推理中不平衡推理深度分布的问题，并将其应用于三个数据集上，实验结果表明该模型可以实现比 DeepLogic 和其他 RNN 基准模型更高的测试准确性，并在规则被洗牌时具有更好的超分布泛化能力。

Jul, 2022

大规模语言模型对于超领域逻辑推理任务的系统评估

大型语言模型在逻辑推理任务中的泛化性和鲁棒性评估及改善的研究。

Oct, 2023

GeomVerse：几何推理的大型模型的系统评估

大语言模型在多步数学推理方面表现出色，但包含文字和图像的数学推理问题需要评估视觉语言模型的推理能力。通过几何问题的镜头，我们通过多个角度评估视觉语言模型的推理能力。我们创建了一个合成的几何问题数据集，具有可控的难度级别，从而进行系统评估。我们的基准测试结果表明，这些模型在几何等主题的推理能力上并不如先前的基准测试所暗示的那样出色，特别是通过我们基准测试的多个深度级别构建，因为解决更深的问题需要更长的推理链而不是额外的记忆知识。我们释放这个数据集供进一步研究使用。

Dec, 2023

IdealGPT: 通过大型语言模型迭代分解视觉和语言推理

本论文提出 IdealGPT 框架，通过大语言模型迭代地分解 VL 推理，以解决零样本推理领域中多步推理问题。我们的 IdealGPT 在多个具有挑战性的 VL 推理任务中表现优异，特别是在 VCR 和 SNLI-VE 中相对最好的 GPT-4 模型提高了 10％和 15％。

May, 2023

A & B == B & A：在大型语言模型中触发逻辑推理失败

我们引入了 LogicAsker，它是一种自动方法，全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力，并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上，并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25% 到 94% 不等。此外，LogicAsker 的测试用例可以进一步用于设计上下文学习的演示例子，有效提高 LLM 的逻辑推理能力，如 GPT-4 提高了 10%。据我们所知，我们的工作是首次基于测试结果创建提示来有效提高 LLM 的形式推理能力。所有的代码、数据和结果都将被公开以供复制和未来研究。

Jan, 2024

关于大型语言模型在推理和规划任务上的自验证局限性

通过在三个领域（24 点游戏，图着色，STRIPS 规划）对 GPT-4 的表现进行实证研究，我们观察到自我评估导致性能显著下降，而外部验证则带来显著性能提升；然而，评估内容对系统性能并不重要，事实上，简单地使用一个可信的验证器重新提问可以保持大部分优势。

Feb, 2024