Jan, 2024

NoFunEval: 搞笑的事实上代码语言模型在功能正确性以外的要求上遭遇困难

TL;DR我们提出了一个新的评估标准NoFunEval,用于评估代码语言模型在非功能需求和功能需求的简单分类实例上的表现,发现它们在测试中普遍表现不佳,对其训练设置存在根本的盲点。