代码语言模型综述

Nov, 2023

A Survey on Language Models for Code

Ziyin Zhang, Chaoyu Chen, Bingchang Liu, Cong Liao, Zi Gong...

TL;DR系统综述了代码处理与语言模型的最新进展，包括 50 + 种模型，30 + 项评估任务和 500 多个相关研究。分析了通用语言模型（如 GPT 系列）和专门针对代码进行预训练的模型之间的关系和区别，并强调了代码建模从统计模型和 RNN 到预训练 Transformer 和 LLM 的历史转变。讨论了代码特定的特征及其在训练代码语言模型中的应用，并确定了该领域的主要挑战和潜在未来方向。

Abstract

In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, and 500 related works. We break down code processing models into g

code processing language models pretrained transformers ast future directions

发现论文，激发创造

关于代码生成的大型语言模型调查

基于大规模语言模型的代码生成领域的综述，介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用，对学术与实践之间的差距进行了分析，提出了关键挑战和机遇，并提供了一个资源网站以记录和传播该领域的最新进展。

Jun, 2024

大型语言模型是代码生成领域最先进的评估器

本研究提出了一个基于 GPT-3.5 的评估框架，用于评估代码生成的功能正确性和人类偏好，能够在不需要测试 oracle 或参考文献的情况下，达到比 CodeBERTScore 更高的准确性和一致性。

Apr, 2023

大型语言模型的概念与实施调查

基于 Transformer 架构的大型语言模型（LLMs）的近期进展在自然语言处理（NLP）应用领域展示了显著的拓宽范围，超越了其在聊天机器人技术中的初始应用。本文探究了这些模型的多方面应用，重点关注 GPT 系列，对人工智能（AI）驱动工具在改变编码、问题解决等传统任务上起到的转变性影响进行了研究，同时开辟了在不同行业中进行研究和开发的新方向。从代码解释和图像描述到便于构建交互式系统和推动计算领域的发展，Transformer 模型展示了深度学习、数据分析和神经网络设计相结合的协同作用。本调查报告深入了解了 Transformer 模型的最新研究，突出了其多功能性和在实际应用领域中转型的潜力，从而为读者提供了对 Transformer-based LLMs 在当前和未来实际应用领域的全面理解。

Mar, 2024

用于代码的大型语言模型的程序测试能力

利用对最近的大型语言模型进行了代码测试的详尽分析，本研究展示了这些模型的一系列有趣性质，并展示了如何改进大型语言模型的程序测试能力，通过利用生成的测试用例来提高合成程序的质量，相较于 GPT-3.5-turbo 和最新的最先进技术，我们的方法在 HumanEval + 上的代码通过率分别提高了 11.77% 和 4.22%。

Oct, 2023

GPT-3 家族大型语言模型综述，包括 ChatGPT 和 GPT-4

这篇综述论文总结了关于 GPT-3 家族大型语言模型的最近研究进展，并指导研究社区未来发展方向。

Oct, 2023

探索大型语言模型在初级编程课程中生成追踪代码问题的潜力

我们探讨了在初级编程课程中应用大型语言模型（LLM）生成代码追踪问题的方法，通过设计指导 GPT4 生成基于代码片段和描述的代码追踪问题的有针对性提示，并建立了一套人工评价指标，用于评估模型生成的问题与人工专家创建的问题的质量。我们的分析揭示了 LLMs 在生成多样化代码追踪问题方面的能力和潜力，并提供了一个独特的人工和 LLM 生成的追踪问题数据集，为教育和自然语言处理研究社区提供了宝贵资源。这项工作为关于 LLMs 在教育环境中潜在用途的持续对话做出了贡献。

Oct, 2023

探索大型语言模型在解决编程问题中的鲁棒性

该研究探讨了大型语言模型在编程问题中的应用，发现最新技术如 InstructGPT 和 ChatGPT 在处理指令时表现优异，而早期使用变量名如 Codex 的模型的性能受描述问题时表浅的指标较大影响。

Jun, 2023

利用语言模型对社会科学数据集进行编码

研究表明，使用语言模型（LMs）可以处理人类编码的文本，通过与人类编码员的比较，我们发现 GPT-3 可以达到与人类编码员相当的表现水平，这为在很多领域中应用语言模型来处理文本提供了证据。

Jun, 2023

低成本语言模型：Python 代码生成的调研及性能评估

我们研究了大型语言模型在生成 Python 代码方面的优势和劣势，并提出了一种引导模型解决问题的思维链条提示，同时还提供了一个由 60 个不同难度级别的编程问题组成的数据集进行评估。

Apr, 2024

大型语言模型在代码文档生成中的比较分析

本文对大型语言模型（LLMs）进行了全面的代码文档生成比较分析，评估了 GPT-3.5、GPT-4、Bard、Llama2 和 Starchat 等模型在准确度、完整性、相关性、可理解性、可读性和代码文档不同级别生成所花费的时间等参数上的表现。除了 Starchat 以外的所有 LLMs 一致优于原始文档，值得注意的是，闭源模型 GPT-3.5、GPT-4 和 Bard 在各个参数上相比开源 / 源代码可用的 LLMs（包括 LLama 2 和 StarChat）表现更好。就生成时间而言，GPT-4 的持续时间最长，其次是 Llama2、Bard，ChatGPT 和 Starchat 的生成时间相当，此外，文件级别文档在所有参数（时间除外）上表现明显较差，相比内联和函数级别文档。

Dec, 2023