Apr, 2024
代码生成中使用的提示的质量评估
Quality Assessment of Prompts Used in Code Generation
TL;DR评估大型语言模型在代码生成方面的效果时,需要使用健全的基准测试,而不严谨的评估基准会提供虚假的性能表现。本研究分析了9个代码生成基准中的3,566个提示,以确定其中的质量问题,并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于Python和编码练习,且缺乏上下文依赖关系,同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高Python代码生成的性能,但对Java代码生成的改进不明显。此外,还发现GPT-3.5-Turbo和CodeGen-2.5模型可能存在数据污染问题。