Jan, 2024

基于变异的一致性测试用于评估 LLMs 的代码理解能力

TL;DR我们提出了一种评估 Large Language Models(LLMs)代码理解性能的新方法,通过引入代码变异来检测 LLMs 对代码和自然语言描述之间微妙差异的能力,并在各种代码变异和编程语言上对两个常见的 LLMs 进行了案例研究,发现它们在代码理解性能上存在显著的差异。