NExT:教授大型语言模型推理代码执行
本文提出了一种新的神经执行树(NExT)框架,通过语义分析将自然语言解释转换为可执行的逻辑形式,并使用该框架增强文本分类的训练数据,实验证明它在两种自然语言处理任务上(关系提取和情感分析)的表示能力优于基线方法。
Nov, 2019
本研究旨在探讨大型语言模型在处理复杂时间推理能力问题上的挑战,并提出了一种结合自然语言处理和逻辑推理的框架,证明了其在时间限制推理任务方面的有效性。
May, 2023
该论文介绍了一种名为 Think-and-Execute 的新框架,它将语言模型的推理过程分解为两步:首先在思考阶段,发现共享于给定任务所有实例的任务级逻辑,然后用伪代码表达逻辑;然后在执行阶段,进一步针对每个实例调整生成的伪代码并模拟代码的执行。通过对七个算法推理任务进行大量实验证明了 Think-and-Execute 的有效性。相较于执行特定实例推理的强基线(例如 CoT 和 PoT),我们的方法更好地提高了语言模型的推理能力,这表明发现任务级逻辑的帮助性。此外,我们还展示了相对于自然语言,伪代码可以更好地引导语言模型的推理,即使它们经过自然语言指导的训练。
Apr, 2024
利用对最近的大型语言模型进行了代码测试的详尽分析,本研究展示了这些模型的一系列有趣性质,并展示了如何改进大型语言模型的程序测试能力,通过利用生成的测试用例来提高合成程序的质量,相较于 GPT-3.5-turbo 和最新的最先进技术,我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。
Oct, 2023
本文探讨了使用 Large Language Models 进行程序合成时,实现 Synthesize,Execute,Debug 方法的方法,包括替换或修复故障程序,以及不同基于模板和基于模型的提示生成技术,取得了比传统方法更好的表现。
Apr, 2023
聚焦大型语言模型,探索通过自我解释生成复杂问题的过程,发现自我解释可以使模型更自信、更准确、更少倾向性地回答问题,甚至在几个复杂问题回答数据集上优于人工生成的示例。
Nov, 2023
通过对大型语言模型进行评估,并将其与学生创建的代码解释进行比较,本文发现自动生成的 LLM 代码解释具有更高的准确性和易理解性,从而提供了一种解决教育中代码解释挑战的新方法。
Apr, 2023
使用生成的可执行代码代替自然语言可以减少计算错误。本文介绍了一种通过自然语言生成问题解决方法,并将其转换为代码的方法,以提高大型语言模型在数学问题求解中的准确性。同时引入了近端策略优化算法和注意力机制,通过自我反馈和依赖自然语言推理解决方案来改进模型性能。在五个数学计算数据集上进行了实验证明了该方法的有效性。
Feb, 2024
研究了大型语言模型在编程教育中的应用,通过提供自动化的下一步提示来支持学生,发现大多数由大型语言模型生成的反馈信息描述了一个具体的下一步,并针对学生的代码和方法进行个性化处理,但当学生接近任务结束时,提示可能包含误导性信息并缺乏足够的细节。该研究展示了大型语言模型生成反馈的潜力,但需要进一步研究来探索其实际应用。
Dec, 2023