Jun, 2024

CS-Bench: 大型语言模型的全面基准,助力计算机科学掌握

TL;DR计算机科学(CS)是人类智能复杂性的证明,深刻推动了人工智能和现代社会的发展。我们引入 CS-Bench,这是第一个专门用于评估 LLM 在计算机科学领域性能的双语(中英文)基准,包括大约 5K 个精心策划的测试样本,涵盖计算机科学的 4 个关键领域的 26 个子领域,包括各种任务形式和知识推理的划分。利用 CS-Bench,我们对 30 多个主流 LLM 进行了全面评估,揭示了 CS 性能与模型规模之间的关系,并定量分析了现有 LLM 失败的原因,并强调了知识补充和 CS 特定推理等改进方向。进一步的跨能力实验显示 LLM 在计算机科学领域能力与数学和编码能力之间存在高度相关性。此外,专注于数学和编码的专家 LLM 在几个 CS 子领域也表现出强大的性能。展望未来,我们预见 CS-Bench 将成为 LLM 在 CS 领域应用的基石,并为评估 LLM 的多样化推理能力开辟新的途径。CS-Bench 的数据和评估代码可在此 https URL 上找到。