大型语言模型的推理：一项综述

Jul, 2024

Reasoning with Large Language Models, a Survey

Aske Plaat, Annie Wong, Suzan Verberne, Joost Broekens, Niki van Stein...

TL;DR扩大语言模型的参数规模到数十亿个参数开辟了上下文学习的可能性，允许对模型进行指导调整和少样本学习，从而在模型未经过专门训练的任务上取得了突破性的语言任务性能，如翻译、摘要和问答。本文回顾了基于提示的推理领域的迅速发展。我们的分类法识别出生成、评估和控制多步推理的不同方法。我们对核心方法和开放问题进行了深入研究，并提出了近期的研究议程。最后，我们强调了推理和基于提示学习之间的关系，并讨论了推理、顺序决策过程和强化学习之间的关系。我们发现通过合理使用提示可以实现自我改进、自我反思和推理过程的一些元认知能力。从使用LLMs进行推理到LLMs进行推理的真正自我改进和自我推理仍然是未来的工作。

Abstract

Scaling up language models to billions of parameters has opened up possibilities for in-context learning, allowing instruction tuning and few-shot learning on tasks that the model was not specifically trained for

发现论文，激发创造

通过上下文学习教授算法推理

该研究通过四个关键阶段成功地向大语言模型（LLMs）教授算法推理，提出了算法提示的概念并在多种算术和定量推理任务中进行了评估，取得了显着的性能提升。

Nov, 2022

LLM是否为万能大师？：探究LLM对领域无关推理技能

本研究旨在探究大型语言模型在不同推理任务上的表现，并发现它们在类比和道德推理方面表现出色，而在空间推理任务方面则表现不佳。

Mar, 2023

LLMs 中并非所有语言的质量相同: 通过跨语言思维提示提高多语言能力

本研究提出了一种名为跨语言思维提示（XLT）的方法，通过激发跨语言和逻辑推理技能，改善了大语言模型的多语言能力，并在与推理、理解和生成有关的7个基准测试中进行了全面的评估，实验结果显示XLT不仅显著提高了各种多语种任务的性能，而且还显著减少了不同语言中每个任务平均性能和最佳性能之间的差距。

May, 2023

自我确信的激励机制：反复审视下的少样本问答

利用大规模预训练语言模型，通过迭代增强和定制提示来提升其在复杂任务中的性能。

Oct, 2023

代码提示引发了文本+代码模型的条件推理能力

通过将自然语言问题转化为代码并用生成的代码提示进行训练，作者发现代码提示在需要条件推理的多个数据集上提高了2.6到7.7个GPT 3.5的绩效，并且观察到代码提示需要包含自然语言文本和高质量代码，以及其触发更优的变量或关键实例的状态跟踪。

Jan, 2024

思维的提升：利用大型语言模型进行试错问题解决

通过迭代地探索和自我评估许多思维树以获得试错推理经验集，我们提出了一种用于LLMs问题解决的自动提示框架BoT，它将作为一种新形式的提示来解决复杂的问题。实验证明，BoT在解决复杂数学问题时，与其他先进的提示方法相比，可以达到更高或相当的问题解决率。

Feb, 2024

从正确性学习，无需提示使LLM高效推理

利用多步骤推理方法和生成概率的置信度度量，我们提出了一种内在的自我纠正推理框架，无需人类反馈、外部工具和手工提示，在不学习错误的情况下提高大型语言模型的推理性能。实验证实了该框架在各种多步骤推理任务中改善了推理性能，同时减少了令牌的使用。

Mar, 2024

LLM推理器：大型语言模型逐步推理的新评估、库和分析

该论文介绍了 AutoRace 和 LLM Reasoners，分别用于评估和实现不同的推理方法，以解决大型语言模型在生成推理链时所面临的挑战。

Apr, 2024

通过想象力、搜索和批评实现LLM的自我提升

AlphaLLM通过将Monte Carlo Tree Search(MCTS)与LLMs集成，建立了一个自我改进循环，从而提高了LLMs的能力，同时避免了其他额外的注释，实验结果表明AlphaLLM显著提高了LLMs的性能。

Apr, 2024

大规模语言模型在数学推理任务中的基准测试

该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现，研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。

Aug, 2024