Jun, 2024

LLM 生成的代码的效率如何?一个严格和高标准的基准测试

TL;DR本研究提出了一种评估大型语言模型在生成高效代码方面能力的高标准基准 ENAMEL,通过新的效率度量标准 eff@k 和人工专家设计的参考解决方案对 30 个常用的大型语言模型进行广泛研究,发现当前的大型语言模型在设计先进算法和实现优化方面仍有不足。