通过程序生成、仿真和搜索学习推理

May, 2024

通过程序生成、仿真和搜索学习推理

Learning to Reason via Program Generation, Emulation, and Search

Nathaniel Weir, Muhammad Khalifa, Linlu Qiu, Orion Weller, Peter Clark

TL;DR通过训练语言模型生成伪程序并使用优化搜索算法，我们展示了代码合成可以应用于更广泛的问题类别，并取得了比传统方法更好的结果。

Abstract

program synthesis with language models (LMs) has unlocked a large set of reasoning abilities; code-tuned LMs have proven adept at generating programs that solve a wide variety of algorithmic symbolic manipulation

program synthesis language models code generation pseudo-programs optimization

发现论文，激发创造

语言模型作为编译器：模拟伪代码执行提升语言模型的算法推理能力

该论文介绍了一种名为 Think-and-Execute 的新框架，它将语言模型的推理过程分解为两步：首先在思考阶段，发现共享于给定任务所有实例的任务级逻辑，然后用伪代码表达逻辑；然后在执行阶段，进一步针对每个实例调整生成的伪代码并模拟代码的执行。通过对七个算法推理任务进行大量实验证明了 Think-and-Execute 的有效性。相较于执行特定实例推理的强基线（例如 CoT 和 PoT），我们的方法更好地提高了语言模型的推理能力，这表明发现任务级逻辑的帮助性。此外，我们还展示了相对于自然语言，伪代码可以更好地引导语言模型的推理，即使它们经过自然语言指导的训练。

Apr, 2024

NExT：教授大型语言模型推理代码执行

通过 NExT 方法，我们可以教会大型语言模型检查程序的执行痕迹并通过推理理解其运行行为，从而显着提升程序修复能力。

Apr, 2024

编程语言模型是少样本通识学习者

本文展示了通过将结构化常识推推理任务框架化为代码生成任务，使用代码生成语言模型（CODEX）可以在自然语言任务上优于 T5 和 GPT-3 等先进语言模型，即使任务并不涉及源代码。

Oct, 2022

代码链：利用语言模型加强的代码仿真器进行推理

我们提出了 Chain of Code (CoT) 这一简单但非常有效的扩展方法，通过鼓励语言模型将语言子任务格式化为编程中的伪代码，以期改进语言模型驱动的推理，并通过 “思考代码” 的方式扩大语言模型能够正确回答的推理问题范围。

Dec, 2023

SemCoder：使用全面语义训练代码语言模型

该论文提出了一种新的策略，通过连接静态代码文本和动态执行状态，训练具有全面语义的 Code LLMs，从而填补 Code LLMs 在诸如调试和程序修复等复杂任务中对深层语义的依赖的差距。该方法通过收集 PyX，一个具有可执行样本、功能描述和执行跟踪的干净代码语料库，训练 Code LLMs 使用自然语言编写代码、表示和推理执行行为，从而开发出了仅有 67 亿参数的 SemCoder，该模型在代码生成和执行推理任务上与 GPT-3.5-turbo 表现相当。

Jun, 2024

利用大型语言模型生成答案集程序

本文提出了一种神经符号方法，将大型语言模型和答案集编程的优势相结合，以将逻辑谜题的自然语言描述转化为答案集程序。

Jul, 2023

使用代码执行解锁大型语言模型的时间问答

本研究旨在探讨大型语言模型在处理复杂时间推理能力问题上的挑战，并提出了一种结合自然语言处理和逻辑推理的框架，证明了其在时间限制推理任务方面的有效性。

May, 2023

程序辅助语言模型

本论文介绍了一种新颖的方法，使用大型语言模型来读取自然语言问题并生成程序作为中间推理步骤，但将求解步骤委托给运行时，如 Python 解释器，在 13 个数学、符号和算法推理任务中展示了神经大型语言模型和符号解释器之间的协同作用。

Nov, 2022

LLMs 能否通过程序在复杂环境进行推理？

大型语言模型（LLMs）在解决程序推理问题方面显示出了出色的能力。通过引入 “reasoning in the wild” 任务并使用一个包含详细解决方案的大型策略引导轨迹数据集，我们在更真实的场景中评估了 LLMs 的推理能力，揭示了其存在的关键限制。

Jun, 2024

使用大型语言模型自动生成编程练习和代码解释

本文研究了利用大型语言模型进行自然语言生成的能力，并应用于编程课程中常见的两种学习资源的制作。研究发现，在创建编程练习时，只需要输入关键词，即可显著影响编程概念和上下文主题的内容，同时也证明了大多数自动生成的内容是全新且合理的。这些结果表明，使用大型生成机器学习模型作为教学工具是有重要价值的，但在交付给学生之前需要一些监督来确保生成的内容质量。文章还探讨了 OpenAI Codex 及类似工具对初学者编程教育的影响，并强调了可能改善教学体验的未来研究方向。

Jun, 2022