NExT：教授大型语言模型推理代码执行

Apr, 2024

NExT：教授大型语言模型推理代码执行

NExT: Teaching Large Language Models to Reason about Code Execution

Ansong Ni, Miltiadis Allamanis, Arman Cohan, Yinlin Deng, Kensen Shi...

TL;DR通过 NExT 方法，我们可以教会大型语言模型检查程序的执行痕迹并通过推理理解其运行行为，从而显着提升程序修复能力。

Abstract

A fundamental skill among human developers is the ability to understand and reason about program execution. As an example, a programmer can mentally simulate code execution in natural language to debug and repair code (aka. rubber duck debugging). However, →

program execution large language models execution traces reasoning program repair

发现论文，激发创造

使用神经执行树学习解释

本文提出了一种新的神经执行树（NExT）框架，通过语义分析将自然语言解释转换为可执行的逻辑形式，并使用该框架增强文本分类的训练数据，实验证明它在两种自然语言处理任务上（关系提取和情感分析）的表示能力优于基线方法。

Nov, 2019

使用代码执行解锁大型语言模型的时间问答

本研究旨在探讨大型语言模型在处理复杂时间推理能力问题上的挑战，并提出了一种结合自然语言处理和逻辑推理的框架，证明了其在时间限制推理任务方面的有效性。

May, 2023

通过程序生成、仿真和搜索学习推理

通过训练语言模型生成伪程序并使用优化搜索算法，我们展示了代码合成可以应用于更广泛的问题类别，并取得了比传统方法更好的结果。

May, 2024

语言模型作为编译器：模拟伪代码执行提升语言模型的算法推理能力

该论文介绍了一种名为 Think-and-Execute 的新框架，它将语言模型的推理过程分解为两步：首先在思考阶段，发现共享于给定任务所有实例的任务级逻辑，然后用伪代码表达逻辑；然后在执行阶段，进一步针对每个实例调整生成的伪代码并模拟代码的执行。通过对七个算法推理任务进行大量实验证明了 Think-and-Execute 的有效性。相较于执行特定实例推理的强基线（例如 CoT 和 PoT），我们的方法更好地提高了语言模型的推理能力，这表明发现任务级逻辑的帮助性。此外，我们还展示了相对于自然语言，伪代码可以更好地引导语言模型的推理，即使它们经过自然语言指导的训练。

Apr, 2024

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

基于大语言模型的全自动编程

本文探讨了使用 Large Language Models 进行程序合成时，实现 Synthesize，Execute，Debug 方法的方法，包括替换或修复故障程序，以及不同基于模板和基于模型的提示生成技术，取得了比传统方法更好的表现。

Apr, 2023

自我解释：教大型语言模型自行推理复杂问题

聚焦大型语言模型，探索通过自我解释生成复杂问题的过程，发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题，甚至在几个复杂问题回答数据集上优于人工生成的示例。

Nov, 2023

比较由学生和大型语言模型创建的代码解释

通过对大型语言模型进行评估，并将其与学生创建的代码解释进行比较，本文发现自动生成的 LLM 代码解释具有更高的准确性和易理解性，从而提供了一种解决教育中代码解释挑战的新方法。

Apr, 2023

人类如何编写代码？大型模型也以相同方式进行

使用生成的可执行代码代替自然语言可以减少计算错误。本文介绍了一种通过自然语言生成问题解决方法，并将其转换为代码的方法，以提高大型语言模型在数学问题求解中的准确性。同时引入了近端策略优化算法和注意力机制，通过自我反馈和依赖自然语言推理解决方案来改进模型性能。在五个数学计算数据集上进行了实验证明了该方法的有效性。

Feb, 2024

使用大型语言模型的入门编程的下一步提示生成

研究了大型语言模型在编程教育中的应用，通过提供自动化的下一步提示来支持学生，发现大多数由大型语言模型生成的反馈信息描述了一个具体的下一步，并针对学生的代码和方法进行个性化处理，但当学生接近任务结束时，提示可能包含误导性信息并缺乏足够的细节。该研究展示了大型语言模型生成反馈的潜力，但需要进一步研究来探索其实际应用。

Dec, 2023