Apr, 2024

CodeEditorBench: 大型语言模型的代码编辑能力评估

TL;DR通过 CodeEditorBench,我们为 LLMs 的代码编辑能力提供了一个可靠的评估平台,其中 19 个 LLMs 的评估结果表明闭源模型(特别是 Gemini-Ultra 和 GPT-4)在 CodeEditorBench 中优于开源模型,并突出了基于问题类型和提示敏感性的模型性能差异。