使用 APPS 评估编码挑战能力
人工智能正在开发出可以用于程序编写的 AI 系统,生成代码的自然语言描述,语言模型在生成代码的过程中表现出了良好的性能,但它们的评估通常只在少数语言和部分层次上进行,还需要更好的培训数据。
Mar, 2023
CodeApex 是一个双语基准数据集,专注于评估大型语言模型(LLMs)在编程理解和代码生成能力上。数据集由三种类型的多项选择题组成,用于评估 LLMs 在编程理解任务上的能力,同时利用算法问题和相应的测试用例来评估 LLMs 生成的代码质量。通过评估包括通用和专用模型在内的 14 个先进 LLMs,发现 GPT 展现出最佳的编程能力,在两个任务上分别达到了约 50% 和 56% 的准确率。希望 CodeApex 能够作为评估 LLMs 编码能力的参考,进一步推动其发展和增长。
Sep, 2023
使用大规模生成模型和较小的编码器模型,语言模型可以帮助软件开发人员提高生产力,包括代码生成、代码补全、代码搜索等任务,并且可以通过新的基准数据集 GenCodeSearchNet (GeCS) 来评估语言模型对编程语言理解的泛化能力。
Nov, 2023
本研究提出了一个基于 GPT-3.5 的评估框架,用于评估代码生成的功能正确性和人类偏好,能够在不需要测试 oracle 或参考文献的情况下,达到比 CodeBERTScore 更高的准确性和一致性。
Apr, 2023
在本文中,我们提出了一种新方法 CodeT,利用预先训练的语言模型自动生成代码示例的测试用例,从而减少人工成本并增加测试场景的覆盖范围,最终实现基于生成的测试用例的代码解决方案选择。
Jul, 2022
本文提出了新的基准测试,包括 MBXP,Multilingual HumanEval 和 MathQA-X,以测试多语言环境下代码生成模型的性能,并发现了多语言模型的优势,以及通过 few-shot prompting 实现对模型新语言的教学能力和在单语言环境下的 zero-shot translation 能力。同时,作者还利用其代码生成模型在多种语言上实现了大规模引导过程,产生了其他与代码相关的评估任务中使用的合成规范解决方案。
Oct, 2022
本文研究了使用潜在随机过程来生成一致性代码以提高连贯性的技术,并在基于预训练的 GPT-2 的 CodeParrot 模型和 APPS 数据集的基础上使用了改进的时间控制模型进行了评估。
Apr, 2023
本研究对 Python 代码生成的两个广泛应用的基准测试 ——HumanEval 和 MBPP 进行了大规模人工评估,重点关注它们的多样性与难度。研究结果发现,现有基准测试对少数编程概念存在显著偏向,而对大多数概念几乎没有或没有代表性的呈现。此外,研究还发现易于完成的编程问题所占比例极高,可能导致对模型在代码生成任务上性能的过高评价。
Jan, 2024
利用执行结果修正生成的代码,我们提出了一种基于人类编程阶段的生成和编辑方法来提高大型语言模型(LLM)在竞争性编程任务方面的代码质量,对使用不同参数大小的 9 种常见代码生成 LLM 在两个竞争性编程数据集上进行了广泛评估,相比于直接从 LLMs 生成的代码,我们的方法在 APP-dev 上的 pass@1 平均值提高了 89%,在 APPS-test 上提高了 31%,在 HumanEval 上提高了 48%,比其他后处理方法表现更优。
May, 2023
本研究评估了 GPT-3.5 和 GPT-4 编程模型的编程熟练度,这些模型对于不同难度级别的编程问题的求解存在明显的局限性,作者提出了一个融合了问题难度和解题时间的编程问题复杂性度量标准,并强调了需要在 AI 模型中加入验证和创造性思维能力以更好地模拟人类问题解决技术的必要性。
May, 2023