Nov, 2024

深入探讨大型语言模型代码生成错误:什么和为什么?

TL;DR本研究针对大型语言模型生成的代码中存在的缺陷,填补了以往仅关注独立函数错误的研究空白,分析了在实际软件开发中上下文依赖带来的非语法错误。我们识别了七种非语法错误类型,并提出了六个导致这些错误的原因,评估结果表明,GPT-4结合ReAct提示技术在识别错误原因方面的F1分数可达0.65,这为提高大型语言模型生成代码的质量提供了宝贵的见解。