Feb, 2024

CodeMind:一个挑战大型语言模型进行代码推理的框架

TL;DRCodeMind 是一个评估大型语言模型的代码推理能力的框架,通过 Independent Execution Reasoning(IER)、Dependent Execution Reasoning(DER)和 Specification Reasoning(SR)三个任务对九个大型语言模型进行了广泛评估,发现它们对于简单的程序和可以正确合成的程序在控制流构造和输入到输出的推理方面表现良好,但对于更复杂、具有非平凡逻辑和算术运算符、非基本类型和 API 调用的代码,它们的性能下降。此外,规范推理(代码合成所必需的)与执行推理(用于更广泛的编程任务,如测试和调试)相关但不相等,基于测试通过来排名大型语言模型的结果可能与代码推理不同。