程序辅助语言模型

Nov, 2022

PAL: Program-aided Language Models

Luyu Gao, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu...

TL;DR本论文介绍了一种新颖的方法，使用大型语言模型来读取自然语言问题并生成程序作为中间推理步骤，但将求解步骤委托给运行时，如 Python 解释器，在 13 个数学、符号和算法推理任务中展示了神经大型语言模型和符号解释器之间的协同作用。

Abstract

large language models (LLMs) have recently demonstrated an impressive ability to perform arithmetic and symbolic reasoning tasks, when provided with a few examples at test time ("few-shot prompting"). Much of thi

large language models few-shot prompting program-aided language models mathematical reasoning tasks python interpreter

发现论文，激发创造

通过将语言模型与符号求解器相结合解决数学语言问题

通过将大型语言模型与外部符号求解器相结合，我们提出了一种能够将单词问题逐步规范化为一组变量和方程的方法，并使用符号求解器解决问题，相较于 PAL 在解决代数类问题上性能提升了 20%。

Apr, 2023

程序协助推理器更加明确自己所知

本文比较了五个数据集和两个模型类型（LLaMA 模型和 OpenAI 模型）上程序辅助语言模型（PAL）和基于文本的思维链（COT）提示技术的校准情况。结果表明，PAL 在 75% 的情况下能够提供更好的校准性能。我们的分析发现，生成较少多样性的提示风格也具有更好的校准结果，因此我们还尝试使用温度缩放来降低生成的多样性，并发现在某些温度下，PAL 不仅更准确，而且还更具校准性。总体而言，我们证明在大多数情况下，程序辅助的推理者比基于文本的对应者更好地了解自己的知识。

Nov, 2023

MathPrompter：利用大型语言模型进行数学推理

提出了一种名为 MathPrompter 的技术，它使用 Zero-shot chain-of-thought 提示技术生成多个代数表达式或 Python 函数，并以不同的方式解决相同的数学问题，从而提高模型在算术问题上的性能并提高置信水平。

Mar, 2023

自然语言编程学习

使用自然语言作为一种新的编程语言来描述任务过程，让其易于被人类和 LMMs 理解，并进一步借助 Learning to Program (LP) 方法通过学习来自训练集中的自然语言程序，优化复杂任务的问题解决能力，该方法在 AMPS 和数学两个数据集上的有效性得到验证，证明其性能超过直接零样本测试表现 18.3%。

Apr, 2023

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

利用大型语言模型生成答案集程序

本文提出了一种神经符号方法，将大型语言模型和答案集编程的优势相结合，以将逻辑谜题的自然语言描述转化为答案集程序。

Jul, 2023

培训以调用符号求解器为目标的经济型语言模型实现参数高效算术推理

在这篇论文中，我们提出了一种名为 SYRELM 的架构，它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述，然后通过一个小型冻结的 LM 生成包含自然语言描述的形式化表达式，并通过策略梯度强化学习训练适应的 LM，从而实现合理的算术推理。该方法在准确性上取得了巨大的改进，并具有易于诊断、解释和大多数研究人员可以使用的特点。

Dec, 2023

大型语言模型是可解释学习者

大型语言模型与符号程序的结合可以在构建人类中心预测模型时解决表达力和解释性之间的平衡问题。

Jun, 2024

人类如何编写代码？大型模型也以相同方式进行

使用生成的可执行代码代替自然语言可以减少计算错误。本文介绍了一种通过自然语言生成问题解决方法，并将其转换为代码的方法，以提高大型语言模型在数学问题求解中的准确性。同时引入了近端策略优化算法和注意力机制，通过自我反馈和依赖自然语言推理解决方案来改进模型性能。在五个数学计算数据集上进行了实验证明了该方法的有效性。

Feb, 2024

语言模型可作为逻辑求解器

LoGiPT 是一种新颖的语言模型，通过直接模拟逻辑求解器的推理过程并严格遵守求解器的语法规则，绕过分析错误，并在竞争的语言模型上表现出优异的性能。

Nov, 2023