神经代码搜索的多模态表征

Jul, 2021

Multimodal Representation for Neural Code Search

Jian Gu, Zimin Chen, Martin Monperrus

TL;DR本文介绍了一种基于树序列化方法和多模态学习模型的语义代码搜索技术，实验结果表明，这种技术可以有效提高代码搜索性能。同时提出衡量代码信息完整度的量化指标来辅助实验结果理解。

Abstract

semantic code search is about finding semantically relevant code snippets for a given natural language query. In the state-of-the-art approaches, the semantic similarity between code and query is quantified as the distance of their representation in the shared →

semantic code search vector space tree-serialization multimodal learning quantification metrics

发现论文，激发创造

使用 CodeSearchNet 语料库学习深度语义模型进行代码搜索

本文提出了一种新颖的深度语义模型，利用多模式来源和特征提取器的效用，将交叉语言嵌入与大批量和难样例挖掘结合起来，结合不同的学习表示来增强表示学习，以解决语义代码搜索任务，该模型在 CodeSearchNet 语料库上训练并在保留数据上评估，取得了 0.384 NDCG 的优异成绩，并在该基准测试中获得第一名。

Jan, 2022

多模态注意力网络学习用于语义源代码检索

本文提出了一种新的多模式注意力网络（MMAN）来解决代码检索过程中的两个主要问题：缺少结构化特征以及深度学习方法的可解释性，其中.MMAM 能够准确地从大规模的代码库中检索代码片段，同时在实际数据集上也比当前最先进的方法表现更优秀。

Sep, 2019

语义代码搜索的多角度架构

该研究提出了一种多角度跨语言神经框架用于代码 - 文本匹配，具备全球和本地相似性，结果比以往单映射空间的方法更好地完成了这一任务。

May, 2020

神经代码理解：可学习的代码语义表示

本文提出了一种学习代码语义的新颖处理技术，并将其应用于各种程序分析任务中，其中使用的 Embeddings 基于独立于源编程语言的代码的 IR，现有技术不足以强烈理解程序语义。

Jun, 2018

复杂查询视频检索的树增强交叉模态编码

本文提出了一种基于 Tree-augmented Cross-modal Encoding 的方法，用于结合学习查询的语言结构和视频的时间特征进行视频检索，以实现更好的视频检索性能。

Jul, 2020

使用表征相似性分析探索代码语言模型中的语义基础

本文利用相似性比较方法研究语言代码模型的语义基础，并通过 IBM CodeNet 数据集研究 CodeBERT 的语义基础。实验表明，现有的预训练方法并未引入语言代码模型的语义基础，而是集中优化基于形式的模式，而进行少量的语义相关任务的微调，可显著提高 CodeBERT 的语义基础。使用双模态输入比单模态输入更好地提高了 CodeBERT 的语义基础，并具有更高样本效率。最后，实验表明，CodeBERT 能够稳健地区分语义上正确和不正确的代码。

Jul, 2022

code2vec: 学习代码的分布式表示

本文介绍了一种基于神经网络模型的代码嵌入方法，通过将代码片段表示为单一的固定长度代码向量，学习抽象语法树中路径的原子表示，并同时学习集合聚合的方法，从而预测代码的语义属性。通过训练一个包含 14M 个方法的数据集，我们证明了该方法的有效性，并通过相应的数据比较表明，该方法比先前的技术有着相对提高超过 75％，是第一个成功预测大型跨项目语料库上的方法名的方法。

Mar, 2018

共享的跨模态深度量化预测

本文提出了一种共享预测深度量化（SPDQ）模型，通过嵌入到重现核希尔伯特空间中同时学习共享子空间和两个私有子空间的表示，以进行不同模态之间的最近邻搜索，并在标签对齐的帮助下实现语义保留。实验结果显示，该模型在两个流行的基准测试中优于现有的基准方法。

Apr, 2019

SynCoBERT：针对代码表示的语法引导的多模式对比预训练

本文提出了 SynCoBERT—— 一种语法引导的，多模态对比预训练方法，旨在更好地表示代码，其中设计了两种新的预训练目标 —— 标识符预测和 AST 边缘预测，并提出了多模态对比学习策略来最大化不同模态之间的互信息。经过广泛的实验，SynCoBERT 在与相同的预训练语料库和模型大小进行比较时，提高了与代码智能相关的四个下游任务的最新性能。

Aug, 2021

基于深度图匹配和搜索技术的语义代码检索

本文提出了一种基于图神经网络的深度图匹配与搜索模型，应用于语义代码检索任务。该模型通过交叉注意力的语义匹配操作，不仅能够捕获查询文本和代码片段的更多结构信息，还能够学习它们之间的细粒度相似性，并在两个公共代码检索数据集中取得了比基线模型显著更好的效果。

Oct, 2020