Jun, 2024

代码堆栈中的错误:大规模 Python 代码堆栈中的错误能被 LLMs 发现吗

TL;DR针对在大型代码环境中评估大语言模型(LLMs)性能的研究,我们设计了一个评估简单语法错误能力的基准测试框架(BICS),研究发现代码环境对检索任务提出了更大的挑战,并且不同模型之间存在明显的性能差异,同时代码长度与性能降低之间有显著的相关性,尽管降低程度在不同模型之间有所不同。