Jan, 2024

大型语言模型的面向对象编程评估基准

TL;DR推动自动化编程需要强大和全面的代码生成基准,然而当前的评估框架在功能编程 (FP) 方面相对而言忽视了面向对象编程 (OOP),本研究引入了一个面向对象编程的开创性基准,包含了 431 个涵盖关键的 OOP 概念和特性的 Python 程序,并提出了一个新的针对 OOP 的评估指标 pass@o,改进了传统的 pass@k 度量,研究结果表明 pass@o 为 OOP 代码生成提供了更相关和全面的评估,专注于代码的语言模型在功能编程方面表现出色,但在 OOP 方面则不及 ChatGPT 等模型,对所有高级代码语言模型在面向对象编程基准上的不良表现突显了这一领域需要的改进。