Jun, 2024

代码生成评估的基准和指标:一项关键性回顾

TL;DR对大型语言模型在编程任务中的评估工作进行了关键综述,着重讨论了现有工具的评估中使用的基准和度量标准,并提出了进一步研究的方向。