通过程序生成、仿真和搜索学习推理
该论文介绍了一种名为 Think-and-Execute 的新框架,它将语言模型的推理过程分解为两步:首先在思考阶段,发现共享于给定任务所有实例的任务级逻辑,然后用伪代码表达逻辑;然后在执行阶段,进一步针对每个实例调整生成的伪代码并模拟代码的执行。通过对七个算法推理任务进行大量实验证明了 Think-and-Execute 的有效性。相较于执行特定实例推理的强基线(例如 CoT 和 PoT),我们的方法更好地提高了语言模型的推理能力,这表明发现任务级逻辑的帮助性。此外,我们还展示了相对于自然语言,伪代码可以更好地引导语言模型的推理,即使它们经过自然语言指导的训练。
Apr, 2024
本文展示了通过将结构化常识推推理任务框架化为代码生成任务,使用代码生成语言模型(CODEX)可以在自然语言任务上优于 T5 和 GPT-3 等先进语言模型,即使任务并不涉及源代码。
Oct, 2022
我们提出了 Chain of Code (CoT) 这一简单但非常有效的扩展方法,通过鼓励语言模型将语言子任务格式化为编程中的伪代码,以期改进语言模型驱动的推理,并通过 “思考代码” 的方式扩大语言模型能够正确回答的推理问题范围。
Dec, 2023
该论文提出了一种新的策略,通过连接静态代码文本和动态执行状态,训练具有全面语义的 Code LLMs,从而填补 Code LLMs 在诸如调试和程序修复等复杂任务中对深层语义的依赖的差距。该方法通过收集 PyX,一个具有可执行样本、功能描述和执行跟踪的干净代码语料库,训练 Code LLMs 使用自然语言编写代码、表示和推理执行行为,从而开发出了仅有 67 亿参数的 SemCoder,该模型在代码生成和执行推理任务上与 GPT-3.5-turbo 表现相当。
Jun, 2024
本研究旨在探讨大型语言模型在处理复杂时间推理能力问题上的挑战,并提出了一种结合自然语言处理和逻辑推理的框架,证明了其在时间限制推理任务方面的有效性。
May, 2023
本论文介绍了一种新颖的方法,使用大型语言模型来读取自然语言问题并生成程序作为中间推理步骤,但将求解步骤委托给运行时,如 Python 解释器,在 13 个数学、符号和算法推理任务中展示了神经大型语言模型和符号解释器之间的协同作用。
Nov, 2022
大型语言模型(LLMs)在解决程序推理问题方面显示出了出色的能力。通过引入 “reasoning in the wild” 任务并使用一个包含详细解决方案的大型策略引导轨迹数据集,我们在更真实的场景中评估了 LLMs 的推理能力,揭示了其存在的关键限制。
Jun, 2024
本文研究了利用大型语言模型进行自然语言生成的能力,并应用于编程课程中常见的两种学习资源的制作。研究发现,在创建编程练习时,只需要输入关键词,即可显著影响编程概念和上下文主题的内容,同时也证明了大多数自动生成的内容是全新且合理的。这些结果表明,使用大型生成机器学习模型作为教学工具是有重要价值的,但在交付给学生之前需要一些监督来确保生成的内容质量。文章还探讨了 OpenAI Codex 及类似工具对初学者编程教育的影响,并强调了可能改善教学体验的未来研究方向。
Jun, 2022