CodeMind：一个挑战大型语言模型进行代码推理的框架

Feb, 2024

CodeMind：一个挑战大型语言模型进行代码推理的框架

CodeMind: A Framework to Challenge Large Language Models for Code Reasoning

Changshu Liu, Shizhuo Dylan Zhang, Reyhaneh Jabbarvand

TL;DRCodeMind 是一个评估大型语言模型的代码推理能力的框架，通过 Independent Execution Reasoning（IER）、Dependent Execution Reasoning（DER）和 Specification Reasoning（SR）三个任务对九个大型语言模型进行了广泛评估，发现它们对于简单的程序和可以正确合成的程序在控制流构造和输入到输出的推理方面表现良好，但对于更复杂、具有非平凡逻辑和算术运算符、非基本类型和 API 调用的代码，它们的性能下降。此外，规范推理（代码合成所必需的）与执行推理（用于更广泛的编程任务，如测试和调试）相关但不相等，基于测试通过来排名大型语言模型的结果可能与代码推理不同。

Abstract

Solely relying on test passing to evaluate large language models (LLMs) for code synthesis may result in unfair assessment or promoting models with data leakage. As an alternative, we introduce →

large language models code synthesis codemind code reasoning abilities execution reasoning

发现论文，激发创造

评估大型语言模型的程序执行运行时行为

本文提出了一个名为 REval 的框架，用于评估代码 LLM 的代码推理能力和一致性，通过对现有的代码基准进行改进，在大规模的实证研究中发现大多数 LLMs 在运行时行为推理和增量一致性评估方面表现不尽人意，强调了提高代码 LLM 的代码推理能力的迫切需求。

Mar, 2024

何时使用思考方案进行推理？

利用结构和逻辑属性以及优化代码复杂度对大型语言模型 (LLM) 的推理能力进行评估和改进。

Aug, 2023

CORE-MM: 多模态大型语言模型的复杂开放式推理评估

我们手动策划了一个专为多模态大型语言模型（MLLMs）设计的基准数据集，重点关注复杂推理任务，通过评估中间推理步骤来准确测量其推理能力。

Nov, 2023

语言模型作为编译器：模拟伪代码执行提升语言模型的算法推理能力

该论文介绍了一种名为 Think-and-Execute 的新框架，它将语言模型的推理过程分解为两步：首先在思考阶段，发现共享于给定任务所有实例的任务级逻辑，然后用伪代码表达逻辑；然后在执行阶段，进一步针对每个实例调整生成的伪代码并模拟代码的执行。通过对七个算法推理任务进行大量实验证明了 Think-and-Execute 的有效性。相较于执行特定实例推理的强基线（例如 CoT 和 PoT），我们的方法更好地提高了语言模型的推理能力，这表明发现任务级逻辑的帮助性。此外，我们还展示了相对于自然语言，伪代码可以更好地引导语言模型的推理，即使它们经过自然语言指导的训练。

Apr, 2024

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

挑战 LLMs 的推理能力：揭示 LLMs 中的认知深度的基准测试

我们引入了一种新颖的评估范式来评估大型语言模型，这种范式挑战了它们进行元推理。该方法解决了现有的数学问题解决基准测试中存在的关键缺陷，传统上用于评估代理的认知能力。我们的范式将重点从以结果为导向的评估转向更综合的评估，能够有效区分模型之间的认知能力。例如，在我们的基准测试中，GPT-4 的性能比 GPT3-5 准确率高十倍。这种新范式的重要性在于它能够揭示当前基准测试（如 GSM8K）未能发现的语言模型的潜在认知缺陷，这是由于它们的饱和度和在不同推理能力之间缺乏有效区分。我们的综合分析包括来自开源和闭源社区的几个最先进的数学模型，揭示了它们的训练和评估方法的根本缺陷。本文不仅主张在评估 LLMs 时进行范式转变，而且对于关于人工通用智能（AGI）的持续讨论也作出了贡献。通过推广类似于我们的元推理评估方法的采用，我们旨在促进对 LLM 真正认知能力的更准确评估。

Dec, 2023

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

编程语言模型是少样本通识学习者

本文展示了通过将结构化常识推推理任务框架化为代码生成任务，使用代码生成语言模型（CODEX）可以在自然语言任务上优于 T5 和 GPT-3 等先进语言模型，即使任务并不涉及源代码。

Oct, 2022

SemCoder：使用全面语义训练代码语言模型

该论文提出了一种新的策略，通过连接静态代码文本和动态执行状态，训练具有全面语义的 Code LLMs，从而填补 Code LLMs 在诸如调试和程序修复等复杂任务中对深层语义的依赖的差距。该方法通过收集 PyX，一个具有可执行样本、功能描述和执行跟踪的干净代码语料库，训练 Code LLMs 使用自然语言编写代码、表示和推理执行行为，从而开发出了仅有 67 亿参数的 SemCoder，该模型在代码生成和执行推理任务上与 GPT-3.5-turbo 表现相当。

Jun, 2024

MindMerger: 非英语语种中高效提升 LLM 推理能力

LLMs 与多语言模型中的外部语言理解能力的融合方法 MindMerger 可提高多语言推理性能。在多个语言推理数据集上的实验证明，MindMerger 相较于其他方法具有更好的性能，尤其对于资源稀缺的语言。在 MGSM 数据集上，不更新 LLMs 的参数，平均准确率分别提升了 6.7% 和 8.0%，涵盖所有语言和资源稀缺的语言。

May, 2024