一种编码代码和辅助代码理解的新方法

Aug, 2024

一种编码代码和辅助代码理解的新方法

A new approach for encoding code and assisting code understanding

Mengdan Fan, Wei Zhang, Haiyan Zhao, Zhi Jin

TL;DR本研究探讨了目前主流模型在代码理解中的局限性，尤其是它们在推理和生成新代码方面的不足。论文提出了一种全新的编码范式，基于异构图像的方法来实现代码理解，通过自监督学习在大规模文本-代码对上进行训练，从而在零样本预测上取得重大突破。该方法为未来通过扩散技术生成代码铺平了道路，避免了自回归模型的限制。

Abstract

Some companies(e.g., Microsoft Research and Google DeepMind) have discovered some of the limitations of GPTs autoregressive paradigm next-word prediction, manifested in the model lack of planning, working memory, backtracking, and reasoning skills. GPTs rely on a local and greedy process of generating the next word, without a global understanding of the task

发现论文，激发创造

神经代码理解：可学习的代码语义表示

本文提出了一种学习代码语义的新颖处理技术，并将其应用于各种程序分析任务中，其中使用的Embeddings基于独立于源编程语言的代码的IR，现有技术不足以强烈理解程序语义。

Jun, 2018

CodeT5: 面向标识符的统一预训练编码器-解码器模型用于代码理解与生成

CodeT5是一个基于编码器-解码器的统一预训练Transformer模型，它充分利用了开发人员分配的标识符所传达的代码语义，通过支持代码理解和生成任务以及多任务学习等方面，显著优于先前的方法，并且在代码缺陷检测和克隆检测等理解任务以及PL-NL，NL-PL和PL-PL等不同方向的生成任务中表现出色。

Sep, 2021

StructCoder: 面向结构的代码生成Transformer

本研究利用编码器-解码器Transformer模型进行编码生成，使用诸如抽象语法树路径预测和数据流预测等辅助任务，结构感知地提高了生成代码质量，实现了代码翻译和文本到代码生成任务的最新性能状态。

Jun, 2022

CodeT5+: 用于代码理解和生成的开源大型语言模型

提出了一种名为CodeT5+的编译器-解码器语言模型，具有灵活的组件模块和多样化的预训练任务，能够在不同的代码相关基准测试中取得最先进的结果，特别是在针对人类评估的代码生成任务中。

May, 2023

CodeFusion：一种用于代码生成的预训练扩散模型

在此研究中介绍了CodeFusion预训练扩散代码生成模型，通过迭代地去噪编码自然语言的完整程序来解决自回归模型无法重新考虑先前生成的令牌的局限性。通过对Bash、Python和Microsoft Excel条件格式规则的自然语言转代码生成任务的评估，实验证明CodeFusion（7500万参数）在一级准确率上与现有自回归系统（350万至1750亿参数）表现相当，并且在前三和前五的准确率上优于它们，这归功于其在多样性与质量之间更好的平衡。

Oct, 2023

规模化的代码表示学习

通过大量的代码数据进行编码表示学习，使用两阶段的预训练方案以及对比学习的方式增强表示，在各种下游任务上持续显著地超过现有的模型，详细讨论了源代码的自定义和有效的令牌级去噪方案、硬负样本与硬正样本的重要性、提出的双模态对比学习如何提升跨语义搜索性能以及预训练方案对模型规模决定下游任务性能的影响。

Feb, 2024

GPT：下一个Token预测是否足够？对代码逻辑理解的探索

大型语言模型的研究着重于提升预训练数据的规模和质量，而目前对于其真正理解代码逻辑的任务效果仍然存在疑问。本文提出了一种新的任务，即“逻辑等效代码选择”，证明了当前的大型语言模型在这一任务中表现不佳，并提出了预训练任务“下一个标记预测+”来改善其性能，实验证明该方法对于逻辑等效代码的选择和代码补全任务有显著的改进。

Apr, 2024

ChatGPT 代码检测：揭示代码来源的技术

研究论文通过使用先进的分类技术来区分由人写的代码和由ChatGPT生成的代码，探讨了大型语言模型在代码生成中的影响，特别是在高等教育领域的潜在风险和对策。

May, 2024

AICoderEval: 大型语言模型的AI领域代码生成改进

自动代码生成，面向真实世界任务的AICoderEval数据集评估了大型语言模型的任务特定代码生成能力，并提出了基于代理机制的框架CoderGen，通过增强模型和构建AICoderEval提高了LLMs的任务特定代码生成能力，AICoder在效果上表现优于现有的代码生成LLMs，证实AICoderEval基准的质量。

Jun, 2024

探索预训练代码生成模型的代码理解能力

大型代码生成模型在自监督学习的基础上取得了显著的成功，但它们在代码理解任务上表现不佳。本文将知识从预训练的代码生成模型转移到代码理解任务中，显著降低了训练成本，实现了理解任务的最先进性能。

Jun, 2024