Jun, 2024

RES-Q: 对代码编辑大规模语言模型系统的评估

TL;DR通过提出的基于自然语言指令的基准测试 RES-Q,对大型语言模型的指令遵循能力和代码仓库编辑系统进行了评估,发现模型能力存在差异,并提出了评估工具的需求。