程序协助推理器更加明确自己所知

Nov, 2023

程序协助推理器更加明确自己所知

Program-Aided Reasoners (better) Know What They Know

Anubha Kabra, Sanketh Rangreji, Yash Mathur, Aman Madaan, Emmy Liu...

TL;DR本文比较了五个数据集和两个模型类型（LLaMA 模型和 OpenAI 模型）上程序辅助语言模型（PAL）和基于文本的思维链（COT）提示技术的校准情况。结果表明，PAL 在 75% 的情况下能够提供更好的校准性能。我们的分析发现，生成较少多样性的提示风格也具有更好的校准结果，因此我们还尝试使用温度缩放来降低生成的多样性，并发现在某些温度下，PAL 不仅更准确，而且还更具校准性。总体而言，我们证明在大多数情况下，程序辅助的推理者比基于文本的对应者更好地了解自己的知识。

Abstract

Prior work shows that program-aided reasoning, in which large language models (LLMs) are combined with programs written in programming languages such as Python, can significantly improve accuracy on various reaso

program-aided reasoning large language models calibration program aided language models text-based chain-of-thought

发现论文，激发创造

程序辅助语言模型

本论文介绍了一种新颖的方法，使用大型语言模型来读取自然语言问题并生成程序作为中间推理步骤，但将求解步骤委托给运行时，如 Python 解释器，在 13 个数学、符号和算法推理任务中展示了神经大型语言模型和符号解释器之间的协同作用。

Nov, 2022

自我确信的激励机制：反复审视下的少样本问答

利用大规模预训练语言模型，通过迭代增强和定制提示来提升其在复杂任务中的性能。

Oct, 2023

大型语言模型作为类比推理者

通过模拟推理为大型语言模型自动生成相关样本或知识的新提示方法在各种推理任务中表现优于零示范的链式思考提示和人工少量示范的链式思考，包括 GSM8K 和 MATH 中的数学问题解决、Codeforces 中的代码生成和 BIG-Bench 中的其他推理任务。

Oct, 2023

大型语言模型是对比推理者

对比提示（CP）显著提高了大语言模型在复杂推理方面的能力。零 - shot 对比提示在算术、常识和符号推理任务上提升了性能，无需手动设计少数训练示例，与当前最先进的 GPT-4 模型相比，在 GSM8K 的准确率从 35.9% 提升至 88.8%，在 AQUA-RAT 的准确率从 41.3% 提升至 62.2%。该方法不仅在大多数算术和常识推理任务上超过了零 - shot CoT 和少数 - shot CoT，还能与现有的提示方法无缝集成，得到改进或相当的结果。

Mar, 2024

小型语言模型是否能帮助大型语言模型更好地进行推理？：LM 引导下的思路链

我们引入了一种新颖的框架，LM-Guided CoT，它利用轻量级（即 <1B）语言模型（LM）指导黑盒大型（即> 10B）LM 在推理任务中的工作。具体而言，轻量级 LM 首先为每个输入实例生成理论依据，接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效，只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型，其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明，我们的方法在回答预测准确性方面优于所有基准方法。我们还发现，强化学习有助于模型生成更高质量的理论依据，并提高问答的性能。

Apr, 2024

迈向多步推理答案校准的统一视角

利用链式思考提问的大型语言模型（LLMs）扩大了改进多步推理能力的范围。本文研究了最近的答案校准策略的设计，并从统一的视角对其进行了全面评估，系统地审查了多个路径上的分步和路径级答案校准。我们的研究有潜力揭示优化多步推理的关键见解。

Nov, 2023

基于大语言模型的推理自动模型选择

本研究通过使用不同的模型进行模型选择，在充分分析理论基础上，在八个推理数据集上实现了显著的性能改进，并在 GSM8K 和 SVAMP 上实现了 96.5％和 93.7％的准确率，达到了最新的研究成果。

May, 2023

LPML: 数学推理的 LLM-Prompting 标记语言

利用大型语言模型（LLMs）进行数学推理时，整合 Chain-of-Thought 方法与外部工具（Python REPL）通过标记语言无缝结合，使 LLMs 可以纠正推理中的错误，提高推理能力。

Sep, 2023

语言模型是贪心推理器：对思维链的系统形式分析

本文通过介绍一种新的合成问答数据集 PrOntoQA，旨在通过对 LLMs 的系统探索，该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析，表明 LLMs 能够进行正确的逻辑推理，但在方案规划方面存在困难。

Oct, 2022

更多询问，更深了解：基于大语言模型的增强学习问句在决策制定中的应用

利用领导者 - 追随者双层框架，本文实现了一个完全集成的端到端框架，用于处理复杂的推理任务，并通过引入历史发现为生成合适的问题（提示）提供指导，进而指导行动学习。

Oct, 2023