Nov, 2023

CodeScope: 一个基于执行的多语言多任务多维度基准评估工具,用于评估 LLMs 在代码理解和生成方面的能力

TL;DR评估大型语言模型在编码任务上的能力的多维度、多语言、多任务评估基准 CodeScope 的引入和分析