- ESALE:增强源代码摘要对齐学习的方法
通过多任务学习范式,利用三个以摘要为重点的任务训练编码器,提出了一种新的改进代码摘要的方法,这三个任务包括单向语言建模(ULM)、掩码语言建模(MLM)和动作词预测(AWP)。实验证明,我们的方法 ESALE 在四个数据集上的表现明显优于基 - 大型语言模型在代码摘要上的性能分析
大语言模型在代码摘要任务方面,特别是代码生成和摘要具有很高的性能。本文发现,这些模型在每个示例上的性能往往取决于代码和对应参考自然语言描述之间的(子词)标记重叠量。此标记重叠主要出现在代码的函数名称中,并通过移除函数名称与移除代码结构来比较 - 机器和人类是否关注相似代码?在代码概括中探索大型语言模型的可解释性
对于语言模型在代码摘要中的可解释性的调查结果表明,语言模型的关注点与人类程序员的注意力没有显著关联,且没有发现人类注意力与语言模型生成摘要的质量之间的影响。这一结果呼吁进一步研究可解释性的语言模型和软件工程任务中的训练机制以及其他模型关注度 - 研究 R 中易受攻击的代码实体
本研究主要调查了 Code-PLMs 在 R 语言中的代码实体的脆弱性,结果显示标识符是最容易受到攻击的代码实体,其次是一些特定于 R 语言的语法标记,这些结果对于理解标记类型的重要性以及开发 R 语言的代码摘要和方法名预测模型具有指导意义 - 源代码摘要的提示学习框架
本文提出了一种用于代码摘要的新型提示学习框架,称为 PromptCS,该框架训练了一个能够生成连续提示的提示代理,以释放大语言模型在代码摘要中的潜力,相比于人工编写的离散提示,连续提示更易于大语言模型理解。PromptCS 在 CodeSe - DocGen: 在 Python 中生成详细的参数文档字符串
文档义务阻碍了开源软件的有效利用。为了解决单一生成模型无法可靠产生详细函数参数的问题,我们提出了一种多步骤的方法,结合多个任务特定模型,每个模型都能产生 docstring 的特定部分,这些模型的组合确保了最终 docstring 中每个部 - 理解代码语义:Transformer 模型在摘要中的评估
这篇论文通过使用先进的基于变压器的语言模型深入研究了代码摘要。通过实证研究,我们改变函数和变量名称来评估代码摘要的效果,以探索模型是否真正理解代码语义或仅依赖于文本线索。我们还引入了死代码和注释代码等对抗性实验,覆盖了 Python、Jav - 探索大型语言模型用于代码解释
使用各种大型语言模型自动生成代码片段的自然语言摘要,研究结果表明,代码语言模型优于其通用模型,而零 - shot 方法在训练集和测试集之间分布不同的数据集上取得了更好的结果。
- EditSum: 源代码摘要的检索和编辑框架
现有研究表明,代码摘要有助于开发人员理解和维护源代码。然而,软件项目中的这些摘要通常缺失或过时。本文提出了一种名为 EditSum 的新型检索编辑方法,用于代码摘要,旨在自动生成源代码的自然语言描述。实验结果表明,EditSum 在预测模式 - SoTaNa: 开源软件开发助手
SoTaNa 是一个开源软件开发助手,使用 ChatGPT 来生成基于指令的高质量数据并利用参数高效的微调方法增强开源基础模型 LLaMA,在回答 Stack Overflow 问题、代码摘要生成和生成数据量对模型性能的影响方面展示了其能力 - AST-MHSA:使用多头自注意力进行代码摘要
AST-MHSA 是一个使用多头注意力机制从抽象语法树中提取重要语义信息的模型,它包括编码器和解码器两个主要组件,编码器将代码的抽象语法树作为输入生成隐藏状态序列,解码器以这些隐藏状态为输入生成代码的自然语言摘要。
- 利用眼动追踪模拟人类注意力以进行神经源代码摘要
该研究利用发布的眼动实验数据创建了人类关注模型,并使用它来改进基于神经网络的源代码摘要方法,以预测在生成自然语言描述时代码中最重要的单词。
- 利用相關的靜態分析產品改進少樣本提示
本文研究了是否通过显式添加语义信息来改善大型语言模型在代码汇总任务中的性能,发现通过添加语义信息可以显著提高模型性能,特别是在 PHP 语言的 CodeSearchNet 数据集上。
- 通过自我改进获得更好的代码语言模型
该研究提出了一个简单的数据增强框架,利用预训练和微调阶段获得的知识来生成伪数据,以进一步提高 PLMC 的性能,在 CodeXGLUE 基准测试中的代码摘要和代码生成等方面取得了显著的改进。
- 所有编程语言通用适配器?用于代码搜索和摘要的适配器调节
本研究提出一种在多语言预训练模型中解决遗忘问题的方法 -- 使用结构适配器仅更新 0.6%的总参数进行微调,取得了代码搜索和汇总任务的最新成果,并在跨语言和低资源情景下实现了良好的性能。
- 探索大型语言模型对代码分析中的分布式转换
通过研究两个大型语言模型 CodeT5 和 Codex 在代码领域外具有的一般化能力,我们发现多任务学习与少许训练数据的微调相结合的方法能够很好地适应不同域的代码摘要和生成需求。
- 一种源代码摘要的抽取和生成框架
本研究提出了一种新的抽取式 - 生成式混合框架来自动生成代码摘要,该框架结合了抽取式方法和生成式方法,能够提取关键的事实性细节,并生成简明、类似于人工撰写的自然语言摘要,实验证明 EACS 显著优于现有的技术,包括 BLEU,METEOR - ACL无监督编程语言翻译:总结和生成到回译
本文提出了通过代码摘要和生成实现反向翻译的方法,该方法通过自然语言(NL)摘要生成源代码,然后通过源代码再生成目标语言。结果表明,该方法与现有的最先进方法相比性能相当好。
- 一种受人类行为启发的程序理解神经网络架构
本文提出了一个 PGNN-EK 模型,该模型由两个主要组成部分组成,以人类行为为参考,分别使用基于 AST 的基于分区的图神经网络模型和外部知识的信息提取进行预训练,以输出代码嵌入,并通过广泛的实验表明本模型在代码概述和代码克隆检测任务方面 - 预训练语言模型在低资源编程语言中的可转移性
研究表明,在多语言数据集中使用语料库来微调预训练的多语言自然语言处理模型 (PLMs) 能够获得更高的性能,但是没有对单语言 PLMs 进行分析。此外,不同的编程语言之间的代码通常不能互换,我们调查了单语言和多语言 PLMs 对不同编程语言