Feb, 2024

Mercury: LLM 代码综合效率评估

TL;DRMercury 是第一个用于评估 LLM 代码综合任务的基准,它综合了 1889 个编程任务,覆盖不同的难度级别,并通过基于历史提交的标准化代码效率度量 Beyond@K,提供了一种评估代码综合的新指标,鼓励生成在功能正确和计算高效方面都优秀的代码,揭示了 LLM 代码生成在效率方面仍存在的差距,为 LLM 的研究与发展开辟了新的领域。