关于代码到代码搜索的语义相似性对比学习

May, 2023

关于代码到代码搜索的语义相似性对比学习

On Contrastive Learning of Semantic Similarity forCode to Code Search

Anthony Saieva, Saikat Chakraborty, Gail Kaiser

TL;DR本文介绍了一种新的代码到代码搜索技术，通过包括静态和动态特征以及在训练过程中利用相似和不同的示例来提高大型语言模型的性能。我们展示了第一个能够在训练期间编码动态运行时信息的代码搜索方法，在推断时间无需执行搜索语料库或搜索查询，同时还是第一个训练正负参考样本的代码搜索技术。我们通过一系列研究验证了我们方法的有效性，并展示了增强 LLMs 执行跨语言代码到代码搜索的能力。我们的评估表明，我们的方法的效果在各种模型架构和编程语言中都是一致的。此外，我们的消融研究表明，即使在训练过程中只有一个正面和负面参考样本，也会产生相当大的性能提高，这证明了相似和不同的参考是代码搜索的重要部分。重要的是，我们展示了精心制作的、经过调整的模型在性能上始终优于未调整的更大的现代 LLMs，即使是在增强最大可用 LLMs 时也是如此，这凸显了开源模型的重要性。为了确保我们研究的可重复性和可扩展性，我们介绍了一个名为 Cosco 的开源实现和培训过程

Abstract

This paper introduces a novel code-to-code search technique that enhances the performance of large language models (LLMs) by including both static and dynamic features as well as utilizing both similar and dissim

code-to-code search large language models dynamic runtime information positive and negative reference samples cross-language search

发现论文，激发创造

CoCoSoDa: 代码搜索的有效对比学习

本文提出了 CoCoSoDa 的方法，充分利用了对比学习进行代码搜索方面应用的两个关键因素：数据扩充和负样本。该方法使用软数据扩充技术生成正样本，使用动量机制生成一致的负样本表示，使用多模式的对比学习方法，既拉紧了代表代码 - 查询对的表示，又将不成对的代码片段和查询推开。对大型数据集进行的广泛实验表明，该方法的性能显著优于 14 个基线，并在平均 MRR 分数上分别超过 CodeBERT、GraphCodeBERT 和 UniXcoder 的 13.3％、10.5％和 5.9％。

Apr, 2022

基于交互矩阵的对比式提示学习代码检索

CPLCS 是一种基于交互式跨模态学习对比提示的代码搜索方法，通过学习 PL 和 NL 表示之间的语义匹配关系、使用双编码器结构的提示学习设计来改善语义表征问题，并使用交互式跨模态学习机制增强 NL 和 PL 之间的精细映射，实验结果在六种编程语言上验证了方法的有效性，改进了语义表征质量和 PL 与 NL 之间的映射能力。

Oct, 2023

使用 CodeSearchNet 语料库学习深度语义模型进行代码搜索

本文提出了一种新颖的深度语义模型，利用多模式来源和特征提取器的效用，将交叉语言嵌入与大批量和难样例挖掘结合起来，结合不同的学习表示来增强表示学习，以解决语义代码搜索任务，该模型在 CodeSearchNet 语料库上训练并在保留数据上评估，取得了 0.384 NDCG 的优异成绩，并在该基准测试中获得第一名。

Jan, 2022

自监督对比学习：基于语义保持转换实现代码检索和摘要

Corder 是一种自监督对比学习框架，用于源代码模型，通过使用一组语义保持变换操作来生成在语法上具有多样性但在语义上是等效的代码片段，从而能够在没有标记数据的情况下进行代码检索和代码摘要。

Sep, 2020

CoSQA+：通过匹配代码增强代码搜索数据集

语义代码搜索是软件工程中提高生产力的重要任务。该论文介绍了 CoSQA+，它通过将高质量的查询与多个合适的代码配对，来解决现有代码搜索数据集存在的问题，并利用大型语言模型自动化进行配对注释、过滤和代码生成，提高了模型性能。此外，还提出了一个新的评估标准 MMRR 来评估一对多代码搜索的性能。

Jun, 2024

语义代码搜索的多角度架构

该研究提出了一种多角度跨语言神经框架用于代码 - 文本匹配，具备全球和本地相似性，结果比以往单映射空间的方法更好地完成了这一任务。

May, 2020

基于上下文感知代码翻译的代码搜索

提出了一种新的上下文感知代码翻译技术，将代码片段翻译成自然语言描述，并使用单一词汇表为翻译和查询生成嵌入，名为 TranCS，实验证明其显著优于最先进技术。

Feb, 2022

重写代码：大型语言模型增强代码搜索的简单方法

通过对代码搜索中的样例代码进行生成和重写，我们提出了一种简单而有效的方法来解决代码风格偏差的问题，并引入了用于量化代码风格相似性的度量指标 Code Style Similarity。实验证明，这种方法在不同的搜索场景中显著提高了检索准确性。

Jan, 2024

从程序对比中学习源代码（不）相似性

DISCO 是一种基于自我监督的模型，结合原创的代码转换算法和注入真实世界安全漏洞的数据增强技术来预训练 Transformer 模型，以更好地识别源代码中的相似之处和不同之处，并区分易受攻击程序和良性程序。

Oct, 2021

CodeRetriever: 用于代码搜索的单模态和双模态对比学习

本文提出了 CodeRetriever 模型，通过大规模的代码 - 文本对比预训练学习功能级别的代码语义表示，并采用单模态对比学习和双模态对比学习两种对比学习方案，以通过文档、函数名称和代码 - 文本对建立语义相关的代码对和代码 - 文本对，在不同代码粒度的 11 个领域 / 语言特定的代码搜索任务中，CodeRetriever 取得了新的最高水平，有效性和鲁棒性得到证明。

Jan, 2022