Aug, 2024

CodeJudge-Eval:大型语言模型能否有效评判代码理解能力?

TL;DR本文探讨了大型语言模型在代码理解能力评估中的不足,提出了一种新型基准测试工具CodeJudge-Eval(CJ-Eval)。CJ-Eval通过评判代码解决方案的正确性,能够挑战模型识别各种错误类型,研究结果显示即使是最先进的模型在该基准测试中也面临困难,彰显了其在深入评估模型代码理解能力方面的独特价值。