ScenEval：代码生成场景评估的基准

Jun, 2024

ScenEval：代码生成场景评估的基准

ScenEval: A Benchmark for Scenario-Based Evaluation of Code Generation

Debalina Ghosh Paul, Hong Zhu, Ian Bayley

TL;DR该研究论文介绍了一种基于场景的机器学习模型评估方法，并构建了一个基准测试集，用于代码生成任务的评估。实验证明，ChatGPT 在复杂的编码任务中表现最差，生成的代码行数通常比参考解决方案少，但在圈复杂度和认知复杂度方面更复杂，如果生成的代码正确，它往往比参考解决方案少复杂度，如果生成的代码不正确，则往往比参考解决方案少复杂度。

Abstract

In the scenario-based evaluation of machine learning models, a key problem is how to construct test datasets that represent various scenar

scenario-based evaluation machine learning models test datasets benchmark code generation

发现论文，激发创造

GenCodeSearchNet：编程语言理解中泛化能力评估的基准测试套件

使用大规模生成模型和较小的编码器模型，语言模型可以帮助软件开发人员提高生产力，包括代码生成、代码补全、代码搜索等任务，并且可以通过新的基准数据集 GenCodeSearchNet (GeCS) 来评估语言模型对编程语言理解的泛化能力。

Nov, 2023

ChatGPT 在基准数据集上的系统研究和综合评估

本文通过评估 ChatGPT 在各种自然语言处理任务中的表现，旨在验证其优缺点，并为未来的 LLM 研究提供思路。作者发现 ChatGPT 能够完成多种任务，取得很好的表现，但仍有许多难题需要解决。

May, 2023

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

SciEval: 一个用于科学研究的多级大型语言模型评估基准

这篇论文提出了 SciEval 基准评估体系，以解决现有预先收集客观问题的数据泄露问题和缺乏主观问答能力评估的问题。SciEval 基于 Bloom 的认知分类学，覆盖了四个维度，系统评估科学研究能力。研究者进行了全面的实验证明，尽管 GPT-4 在与其他 LLMs 相比取得了最先进的表现，但仍有很大的改进空间，特别是在动态问题方面。数据和代码现已公开。

Aug, 2023

DevEval: 评估实际软件项目中的代码生成

通过提出一个与开发者在实践项目中的经验相一致的新基准 DevEval，我们评估了五个热门的大型语言模型在代码生成方面的实际能力，揭示了它们的实际表现，并讨论了在实践项目中代码生成的挑战和未来发展方向。

Jan, 2024

DevEval：与现实世界源代码仓库对齐的手动注释代码生成基准

通过新的基准测试 DevEval，我们评估了 8 种流行的大型语言模型在真实代码库中的编码能力，并发现这些模型的编码能力在真实世界的代码库中存在缺陷。

May, 2024

代码生成评估的基准和指标：一项关键性回顾

对大型语言模型在编程任务中的评估工作进行了关键综述，着重讨论了现有工具的评估中使用的基准和度量标准，并提出了进一步研究的方向。

Jun, 2024

ChatGPT 在软件工程领域的适用范围：一次彻底调查

对 ChatGPT 在软件工程中的应用进行了研究，发现 ChatGPT 在代码的语法理解方面具有较高的能力，但在代码的语义理解方面，特别是动态语义方面存在困难，容易产生虚假输出。这表明在软件工程中使用 ChatGPT 时需要进一步探索验证其输出正确性的方法，以确保其可靠性。

May, 2023

评估 ChatGPT 在中文拼写纠错中的性能的新度量标准 Eval-GCSC

ChatGPT 在中国拼写纠错任务中表现出色，但传统指标得分低，我们提出了 Eval-GCSC 这个新的评估指标，它采用了词级和语义相似度判断，来更好地评估生成模型在拼写纠错任务中的能力。实验结果显示，Eval-GCSC 与人工评估结果密切吻合，ChatGPT 在这个评估指标下的表现与传统的基于词级分类模型相当，展示了它作为拼写纠错工具的潜力。

Nov, 2023

用于对源代码进行大型语言模型解读的因果研究基准测试

通过引入名为 Galeras 的基准测试策略，将统计学严谨性引入 LLMs 的评估，该论文展示了因果推断评估在降低混杂偏差方面的实践成果，为分析准确度指标提供了可解释性的解决方案。

Aug, 2023