Mar, 2024

评估大型语言模型的程序执行运行时行为

TL;DR本文提出了一个名为 REval 的框架,用于评估代码 LLM 的代码推理能力和一致性,通过对现有的代码基准进行改进,在大规模的实证研究中发现大多数 LLMs 在运行时行为推理和增量一致性评估方面表现不尽人意,强调了提高代码 LLM 的代码推理能力的迫切需求。