Sep, 2024

面向API的代码生成评估的综合框架

TL;DR本研究解决了当前评估大型语言模型(LLMs)在面向API的代码生成能力方面的空白,提出了一种名为AutoAPIEval的轻量级自动化评估框架。研究发现,不同的LLMs在执行特定任务时表现差异显著,进而揭示了影响代码质量的重要因素,如API的受欢迎程度和模型的置信度。