- 对 Interspeech 会议的可重复性研究:一种纵向和比较的视角
本文调查了语音与语言处理领域七个相关会议的 27,717 篇论文,发现相比其他会议,Interspeech 会议开源代码的可用性出现了高达 40% 的下降,文中提供了提高可复现性的建议和可能的方向。
- 面向源代码模型的数据增强方法:综述
该研究综述了针对源代码资料的数据增广方法,构建了一种源代码模型数据增广的分类方法,并探讨了代表性方法、优化策略、广泛接受的源代码场景和下游任务,以及未来研究的潜在挑战和可能性。
- 面向图数据的统一主动学习框架,应用于软件源代码性能预测
提出了一种基于主动学习的框架,通过分析软件源代码的 AST 图表征来进行软件性能预测,从而实现支持回归任务的任意查询策略并提高 AI 模型的性能。
- 将全局和局部层次信息植入基于序列的代码表示模型
本文探讨了代码序列中层次结构对令牌的影响,并将其抽象为代码令牌的一个属性。我们提出了一种简单但有效的模型 HiT,将完整的层次结构嵌入源代码序列。实验证明,层次嵌入可用于学习代码结构,并在多个数据集上的分类和生成任务中显示出 HiT 性能的 - 自动识别不同来源之间自我承认技术债务之间的关系
通过自动检测不同来源中的自承技术债务之间的关系与特征,可以改进和管理自承技术债务。在 103 个开源项目中,我们描述了 9 种主要的有关自承技术债务关系的情况,并对 26 种关系进行了量化概述。
- 基于源代码表示的分布式深度集成学习的物联网终端漏洞挖掘系统(DCDetector)
本研究提出了利用分布式深度集成学习模型检测 C/C++ 等高级编程语言源代码漏洞的方法,并采用敏感语句相关的切片来对源代码进行建模。实验结果表明,该方法可以有效地分析大规模漏洞数据并降低传统静态分析的误报率。
- Stack: 3 TB 开源许可的源代码
本文介绍了一个包含三十种编程语言的开源代码数据集 The Stack,以及如何构建、管理和使用该数据集来训练大型语言模型,通过在 Python 子集上训练 350M 参数解码器,在文本到代码的基准测试上取得了有前途的结果。
- 深度源代码处理模型的毒性攻击和防御
为了验证现有的深度源代码处理模型对毒攻击的脆弱性和提出防御措施,我们提出了一个名为 CodePoisoner 的毒攻击框架和一个有效的防御方法 ——CodeDetector,然后将它们应用于缺陷检测,克隆检测和代码修复。
- 我说,你验证:朝向值得信赖的神经程序合成
本文基于大型语言模型,提出了一种改进程序综合器可靠性和总体准确性的方法,通过语言模型自然语言描述求解程序问题,并且学习分析程序和断言的一致性,以判断哪个程序最有可能是正确的,从而通过提供可信的解决方案来改善可靠性
- 顶级人工智能会议论文源代码的自动分析
提出了一种自动识别具有可用源代码论文并提取其代码库 URL 的方法,利用该方法发现 10 个顶级人工智能会议 2010 至 2019 年的 20.5% 常规论文被识别为具有可用源代码,但其中 8.1% 的源代码库已不再可访问,同时创建了 X - 代码漏洞识别的多视角预训练模型
本文提出了一种新颖的多视图预训练模型(MV-PTM),用于编码源代码的序列和多类型结构信息,并利用对比学习增强代码表示,实验结果表明 MV-PTM 的优越性,特别是在 F1 分数方面,优于 GraphCodeBERT 平均 3.36%。
- 使用 BERT 和 Longformer 检测代码注释不一致性
利用 BERT 和 Longformer 模型检测自然语言告知语境下源代码评论中的不一致性,经过实验验证成功超越多种基线算法并获得与排除语言和词汇特征的最新模型相当的效果,同时探讨使用预训练语言模型检测不一致性和自动更新评论的未来研究方向。
- NatGen: 自然化源代码的生成式预训练
本文提出了一种新的预训练目标 —— 源代码的自然化,在大规模的自然代码库中通过引入非自然代码形式的六类语义保持变换,来训练生成等效但更加自然的代码,进一步提升了自然代码的统计学习能力,实现了三种软件工程任务的生成,翻译和细化,达到了 Cod - CVPRRF-Next:卷积神经网络高效感受野搜索
本研究提出了一种全局到本地的搜索方案,探索更好的感受野组合以提高任务性能,通过将感受野搜索插入不同的模型中,如对象检测、实例分割等,提高了模型性能,源代码公开可用。
- VulBERTa:面向漏洞检测的简化源代码预训练
本文提出 VulBERTa,一个基于深度学习的方法,用于检测源代码中的安全漏洞。该方法使用真实的开源 C / C ++ 项目进行预训练,可以学习代码语法和语义的深层知识表示,并通过该表示来训练漏洞检测分类器。实验表明 VulBERTa 在多 - IJCAI深度学习与软件工程:源代码预训练模型调查
介绍了深度学习在软件工程中的应用,着重讨论了源代码的预训练模型,并展望了未来的研究方向。
- 摩擦作家
该研究提出了一种基于动态摩擦的文本分析方法,其使用文本字母的分布频率计算摩擦系数,通过与 Flesch 阅读易度比较,论文展示了该方法的有效性,同时提供了分析程序的源代码。
- ACL情感图的直接解析
本文研究如何应用基于图的语义解析器直接从文本预测情感图来完成结构化情感分析的任务,取得了在 5 个标准基准测试集中 4 个的最先进结果,并公开了源代码、模型和预测结果。
- 预训练语言模型对源代码的结构分析
此篇论文分析了预训练语言模型,尤其是 CodeBERT 和 GraphCodeBERT 对源代码的结构性质,通过对注意力分析,词嵌入的探索和语法树归纳等方面进行全面分析,揭示出了一些深入的发现,为今后的相关研究提供了启示。
- 源代码人工智能调查:对话系统视角
本论文综述了过去 35 年中在自然语言处理 (NLP) 中应用的主要深度学习方法和源代码的人工智能 (AI) 应用,包括代码智能 (CI) 和编程语言处理 (PLP),以及其在软件工程和教育中的对话助手的应用。还提出了在 AI 与对话助手和