神经代码搜索的多模态表征
本文提出了一种新颖的深度语义模型,利用多模式来源和特征提取器的效用,将交叉语言嵌入与大批量和难样例挖掘结合起来,结合不同的学习表示来增强表示学习,以解决语义代码搜索任务,该模型在 CodeSearchNet 语料库上训练并在保留数据上评估,取得了 0.384 NDCG 的优异成绩,并在该基准测试中获得第一名。
Jan, 2022
本文提出了一种新的多模式注意力网络(MMAN)来解决代码检索过程中的两个主要问题:缺少结构化特征以及深度学习方法的可解释性,其中.MMAM 能够准确地从大规模的代码库中检索代码片段,同时在实际数据集上也比当前最先进的方法表现更优秀。
Sep, 2019
本文提出了一种学习代码语义的新颖处理技术,并将其应用于各种程序分析任务中,其中使用的 Embeddings 基于独立于源编程语言的代码的 IR,现有技术不足以强烈理解程序语义。
Jun, 2018
本文提出了一种基于 Tree-augmented Cross-modal Encoding 的方法,用于结合学习查询的语言结构和视频的时间特征进行视频检索,以实现更好的视频检索性能。
Jul, 2020
本文利用相似性比较方法研究语言代码模型的语义基础,并通过 IBM CodeNet 数据集研究 CodeBERT 的语义基础。实验表明,现有的预训练方法并未引入语言代码模型的语义基础,而是集中优化基于形式的模式,而进行少量的语义相关任务的微调,可显著提高 CodeBERT 的语义基础。使用双模态输入比单模态输入更好地提高了 CodeBERT 的语义基础,并具有更高样本效率。最后,实验表明,CodeBERT 能够稳健地区分语义上正确和不正确的代码。
Jul, 2022
本文介绍了一种基于神经网络模型的代码嵌入方法,通过将代码片段表示为单一的固定长度代码向量,学习抽象语法树中路径的原子表示,并同时学习集合聚合的方法,从而预测代码的语义属性。通过训练一个包含 14M 个方法的数据集,我们证明了该方法的有效性,并通过相应的数据比较表明,该方法比先前的技术有着相对提高超过 75%,是第一个成功预测大型跨项目语料库上的方法名的方法。
Mar, 2018
本文提出了一种共享预测深度量化(SPDQ)模型,通过嵌入到重现核希尔伯特空间中同时学习共享子空间和两个私有子空间的表示,以进行不同模态之间的最近邻搜索,并在标签对齐的帮助下实现语义保留。实验结果显示,该模型在两个流行的基准测试中优于现有的基准方法。
Apr, 2019
本文提出了 SynCoBERT—— 一种语法引导的,多模态对比预训练方法,旨在更好地表示代码,其中设计了两种新的预训练目标 —— 标识符预测和 AST 边缘预测,并提出了多模态对比学习策略来最大化不同模态之间的互信息。经过广泛的实验,SynCoBERT 在与相同的预训练语料库和模型大小进行比较时,提高了与代码智能相关的四个下游任务的最新性能。
Aug, 2021
本文提出了一种基于图神经网络的深度图匹配与搜索模型,应用于语义代码检索任务。该模型通过交叉注意力的语义匹配操作,不仅能够捕获查询文本和代码片段的更多结构信息,还能够学习它们之间的细粒度相似性,并在两个公共代码检索数据集中取得了比基线模型显著更好的效果。
Oct, 2020