Aug, 2024

功能正确性是否足够评估代码语言模型?探索生成代码的多样性

TL;DR本研究探讨生成代码的多样性作为评估代码语言模型(LMs)能力的关键标准,而不仅仅是功能正确性。我们提出了一种系统性的方法,通过不同的互代码相似性指标来评估生成代码的多样性,并发现当前的LMs往往产生功能正确但缺乏多样性的代码,从而强调了多样性在代码生成中的重要性。