最新 GPT 模型的人工评估 -- 2024

Feb, 2024

HumanEval on Latest GPT Models -- 2024

Daniel Li, Lincoln Murr

TL;DR使用 GPT-4 模型改进程序综合，通过与 Huamn Eval 连接的代码库展示了在 Python 代码生成上与先前最先进的解决方案相比具有竞争力的性能，同时促进了多步骤范式综合。

Abstract

In 2023, we are using the latest models of gpt-4 to advance program synthesis. The large language models have significantly improved the state-of-the-art for this purpose. To make these advancements more accessible, we have created a repository that connects these models to

gpt-4 program synthesis huamn eval codegen multi-step paradigm synthesis

发现论文，激发创造

对基于代码训练的大型语言模型的评估

本文介绍了从 GitHub 公开可用的代码细调的 Codex 语言模型，并研究了其 Python 代码编写能力。在新的评估集 HumanEval 上，我们的模型可解决 28.8% 的问题，并发现重复采样模型是解决难题的有效策略。但我们也发现其局限性，最终讨论了代码生成技术的潜在影响。

Jul, 2021

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

面向编程教育的生成式人工智能：ChatGPT、GPT-4 和人类导师的基准测试

本研究系统评估了两种模型 (基于 GPT-3.5 的 ChatGPT 和 GPT-4)，并将它们与人类导师在各种情形下的表现进行比较。我们使用五个 Python 编程问题和来自在线平台的真实有 bug 程序进行评估，并使用基于专家的注释进行评估。结果表明，GPT-4 明显优于 ChatGPT，并在某些场景下接近人类导师的表现，但在某些情况下仍表现不佳。

Jun, 2023

大型语言模型生成程序代码的系统评估

GPT-4 在生成编程代码方面表现优异，优于其他大型语言模型，具备在不同编程语言之间翻译和学习的强大能力，同时具备与人类程序员相当的代码生成效率，表明其在编程代码生成和软件开发中具备可靠的助手潜力。

Mar, 2024

代码生成模型的多语言评估

本文提出了新的基准测试，包括 MBXP，Multilingual HumanEval 和 MathQA-X，以测试多语言环境下代码生成模型的性能，并发现了多语言模型的优势，以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时，作者还利用其代码生成模型在多种语言上实现了大规模引导过程，产生了其他与代码相关的评估任务中使用的合成规范解决方案。

Oct, 2022

HumanEval-XL：一种面向跨语言自然语言通用性的多语言代码生成评估基准

使用人工评估的大规模多语言代码生成基准，填补了在多语言代码生成领域中评估自然语言泛化能力的空白。

Feb, 2024

评估指标在 GPT-4 时代：可靠评估大型序列到序列任务上的语言模型

通过自动和人工评估，我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估，发现 ChatGPT 在大多数指标上始终优于其他流行模型，而使用经典的自动评估指标时，得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多，表明许多流行基准的质量较低。最后，我们发现 GPT-4 能够在特定任务的变异性较小的情况下，对模型输出进行排名，与人类判断趋于一致，但在语法错误纠正任务中的排名一致性较低。

Oct, 2023

巨型语言模型（GPT-4）的进步：通过高等教育编程课程的考核不再成为难题

该研究对基于 GPT-4 模型的 Python 编程自动测试提供了详细的分析和实验结果，这表明自然语言处理技术在编程教育类中有很大的潜力，并且给程序设计教育提出了新的问题。

Jun, 2023

最小人工投入快速开发大型语言模型的高质量指导数据和评估基准：以日语为例的案例研究

我们提出了基于 GPT-4 的高效自指导方法，通过翻译少量英语指令并进行修订，为日语构建高质量的指令数据和评估基准，并证明使用我们的 GPT-4 自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于 Japanese-Alpaca。

Mar, 2024

通过严格评估大型语言模型来生成代码，确定 ChatGPT 生成的代码是否真正正确

使用 EvalPlus 框架对大型语言模型进行代码综合基准测试，通过自动生成测试输入来扩充现有基准测试集，发现并降低了 LLM 合成代码的错误率，揭示了现有编程基准测试的局限性并为编程基准测试的改进方向开辟了新的方向。

May, 2023