一种编码代码和辅助代码理解的新方法
本文提出了一种学习代码语义的新颖处理技术,并将其应用于各种程序分析任务中,其中使用的Embeddings基于独立于源编程语言的代码的IR,现有技术不足以强烈理解程序语义。
Jun, 2018
CodeT5是一个基于编码器-解码器的统一预训练Transformer模型,它充分利用了开发人员分配的标识符所传达的代码语义,通过支持代码理解和生成任务以及多任务学习等方面,显著优于先前的方法,并且在代码缺陷检测和克隆检测等理解任务以及PL-NL,NL-PL和PL-PL等不同方向的生成任务中表现出色。
Sep, 2021
本研究利用编码器-解码器Transformer模型进行编码生成,使用诸如抽象语法树路径预测和数据流预测等辅助任务,结构感知地提高了生成代码质量,实现了代码翻译和文本到代码生成任务的最新性能状态。
Jun, 2022
提出了一种名为CodeT5+的编译器-解码器语言模型,具有灵活的组件模块和多样化的预训练任务,能够在不同的代码相关基准测试中取得最先进的结果,特别是在针对人类评估的代码生成任务中。
May, 2023
在此研究中介绍了CodeFusion预训练扩散代码生成模型,通过迭代地去噪编码自然语言的完整程序来解决自回归模型无法重新考虑先前生成的令牌的局限性。通过对Bash、Python和Microsoft Excel条件格式规则的自然语言转代码生成任务的评估,实验证明CodeFusion(7500万参数)在一级准确率上与现有自回归系统(350万至1750亿参数)表现相当,并且在前三和前五的准确率上优于它们,这归功于其在多样性与质量之间更好的平衡。
Oct, 2023
通过大量的代码数据进行编码表示学习,使用两阶段的预训练方案以及对比学习的方式增强表示,在各种下游任务上持续显著地超过现有的模型,详细讨论了源代码的自定义和有效的令牌级去噪方案、硬负样本与硬正样本的重要性、提出的双模态对比学习如何提升跨语义搜索性能以及预训练方案对模型规模决定下游任务性能的影响。
Feb, 2024
大型语言模型的研究着重于提升预训练数据的规模和质量,而目前对于其真正理解代码逻辑的任务效果仍然存在疑问。本文提出了一种新的任务,即“逻辑等效代码选择”,证明了当前的大型语言模型在这一任务中表现不佳,并提出了预训练任务“下一个标记预测+”来改善其性能,实验证明该方法对于逻辑等效代码的选择和代码补全任务有显著的改进。
Apr, 2024
研究论文通过使用先进的分类技术来区分由人写的代码和由ChatGPT生成的代码,探讨了大型语言模型在代码生成中的影响,特别是在高等教育领域的潜在风险和对策。
May, 2024
自动代码生成,面向真实世界任务的AICoderEval数据集评估了大型语言模型的任务特定代码生成能力,并提出了基于代理机制的框架CoderGen,通过增强模型和构建AICoderEval提高了LLMs的任务特定代码生成能力,AICoder在效果上表现优于现有的代码生成LLMs,证实AICoderEval基准的质量。
Jun, 2024
大型代码生成模型在自监督学习的基础上取得了显著的成功,但它们在代码理解任务上表现不佳。本文将知识从预训练的代码生成模型转移到代码理解任务中,显著降低了训练成本,实现了理解任务的最先进性能。
Jun, 2024