Apr, 2024

代码生成中使用的提示的质量评估

TL;DR评估大型语言模型在代码生成方面的效果时,需要使用健全的基准测试,而不严谨的评估基准会提供虚假的性能表现。本研究分析了 9 个代码生成基准中的 3,566 个提示,以确定其中的质量问题,并研究了修复这些问题对模型性能的影响。发现评估基准主要侧重于 Python 和编码练习,且缺乏上下文依赖关系,同时还存在拼写和语法错误、表达不清晰以及不符合适当文档规范等质量问题。修复这些问题可以提高 Python 代码生成的性能,但对 Java 代码生成的改进不明显。此外,还发现 GPT-3.5-Turbo 和 CodeGen-2.5 模型可能存在数据污染问题。