Jul, 2024

超越正确性:大语言模型多维代码生成基准测试

TL;DR通过新的RACE基准对18种代表性的大型语言模型进行了评估,发现目前这些模型在按需生成高质量代码方面还未满足软件开发的要求,其中代码的可读性是生成代码整体质量的重要指标,并且大多数模型对特定编码风格偏好。这些发现有助于研究人员更深入地理解当前大型语言模型的编码能力,并为模型改进指明未来方向。