代码的大型语言模型的系统评估

ICLRFeb, 2022

A Systematic Evaluation of Large Language Models of Code

Frank F. Xu, Uri Alon, Graham Neubig, Vincent J. Hellendoorn

TL;DR通过对现有大型模型 (包括 Codex、GPT-J、GPT-Neo、GPT-NeoX-20B 和 CodeParrot) 的系统评估，我们填补了目前缺少大量模型和数据设计决策信息的空白，并提出了一个基于 GPT-2 架构的新模型 (PolyCoder)。我们发现虽然 Codex 本身并不是开源的，但现有的开源模型在某些编程语言上取得了接近的结果，并且在 C 编程语言中，PolyCoder 模型优于所有模型包括 Codex。

Abstract

large language models (LMs) of code have recently shown tremendous promise in completing code and synthesizing code from natural language descriptions. However, the current state-of-the-art code LMs (e.g., Codex (Chen et al., 2021)) are not publicly available, leaving many questions ab

large language models code synthesis model evaluation open-source models polycoder

发现论文，激发创造

对基于代码训练的大型语言模型的评估

本文介绍了从 GitHub 公开可用的代码细调的 Codex 语言模型，并研究了其 Python 代码编写能力。在新的评估集 HumanEval 上，我们的模型可解决 28.8% 的问题，并发现重复采样模型是解决难题的有效策略。但我们也发现其局限性，最终讨论了代码生成技术的潜在影响。

Jul, 2021

探索大型语言模型在解决编程问题中的鲁棒性

该研究探讨了大型语言模型在编程问题中的应用，发现最新技术如 InstructGPT 和 ChatGPT 在处理指令时表现优异，而早期使用变量名如 Codex 的模型的性能受描述问题时表浅的指标较大影响。

Jun, 2023

DeepSeek-Coder：大型语言模型与编程的结合 -- 代码智能的崛起

通过介绍 DeepSeek-Coder 系列，一种从头开始训练的开源代码模型，基于高质量项目级代码语料库进行预训练，利用填空任务和 16K 窗口提升代码生成和填充，在多个基准测试中展现出不仅在开源代码模型中达到最先进的性能，而且超越了诸如 Codex 和 GPT-3.5 等现有的闭源模型。此外，DeepSeek-Coder 模型采用宽松许可证，允许进行研究和无限制的商业应用。

Jan, 2024

大型语言模型在代码文档生成中的比较分析

本文对大型语言模型（LLMs）进行了全面的代码文档生成比较分析，评估了 GPT-3.5、GPT-4、Bard、Llama2 和 Starchat 等模型在准确度、完整性、相关性、可理解性、可读性和代码文档不同级别生成所花费的时间等参数上的表现。除了 Starchat 以外的所有 LLMs 一致优于原始文档，值得注意的是，闭源模型 GPT-3.5、GPT-4 和 Bard 在各个参数上相比开源 / 源代码可用的 LLMs（包括 LLama 2 和 StarChat）表现更好。就生成时间而言，GPT-4 的持续时间最长，其次是 Llama2、Bard，ChatGPT 和 Starchat 的生成时间相当，此外，文件级别文档在所有参数（时间除外）上表现明显较差，相比内联和函数级别文档。

Dec, 2023

利用训练于代码上的语言模型进行少样本语义解析

本文研究使用具备上下文的例句，将语义解析问题转化为规范语句的近义词问题，旨在改善大型语言模型在少量训练数据下的性能，并探究在自然语言映射为代码的语义解析任务中，使用预训练模型 OpenAI Codex 能否表现更好。实验发现，相比等效的 GPT-3 模型，Codex 在这种任务中表现更佳，尤其是在像 Overnight 和 SMCalFlow 这样的数据集中。

Dec, 2021

Big Code != Big Vocabulary: 开放词汇模型用于源代码

本文研究了大规模源代码资料库上各种建模选择如何影响产生的词汇表并呈现出一个开放式词汇表源代码 NLM，可以扩展到比之前的工作大 100 倍的这样一个资料库，并表明这样的模型在三个不同的代码资料库（Java，C，Python）上优于现有技术。

Mar, 2020

CodeGen: 一个用于代码的开放式大语言模型，支持多轮程序综合

本文介绍了一种基于大型语言模型的程序合成方法，其中所训练的模型在自然语言处理和编程语言数据上具有竞争力，以及构建的开放式基准 Multi-Turn Programming Benchmark，该基准将单个程序分解为多个提示，从而显着提高了程序综合的准确性。本文提供了 JAXFORMER 的开放源码，以便更广泛地使用。

Mar, 2022

MAP-Neo：高能透明的双语大型语言模型系列

开源研究中心提供了 MAP-Neo，一个具有可比较性的高性能透明双语语言模型，并公开了所有细节以复现该模型，以此加强开放研究社区并激发更多创新和创意来促进大语言模型的进一步改进。

May, 2024

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

大型语言模型生成程序代码的系统评估

GPT-4 在生成编程代码方面表现优异，优于其他大型语言模型，具备在不同编程语言之间翻译和学习的强大能力，同时具备与人类程序员相当的代码生成效率，表明其在编程代码生成和软件开发中具备可靠的助手潜力。

Mar, 2024