CoCoSoDa: 代码搜索的有效对比学习

Apr, 2022

CoCoSoDa: Effective Contrastive Learning for Code Search

Ensheng Shi, Yanlin Wang, Wenchao Gu, Lun Du, Hongyu Zhang...

TL;DR本文提出了 CoCoSoDa 的方法，充分利用了对比学习进行代码搜索方面应用的两个关键因素：数据扩充和负样本。该方法使用软数据扩充技术生成正样本，使用动量机制生成一致的负样本表示，使用多模式的对比学习方法，既拉紧了代表代码 - 查询对的表示，又将不成对的代码片段和查询推开。对大型数据集进行的广泛实验表明，该方法的性能显著优于 14 个基线，并在平均 MRR 分数上分别超过 CodeBERT、GraphCodeBERT 和 UniXcoder 的 13.3％、10.5％和 5.9％。

Abstract

code search aims to retrieve semantically relevant code snippets for a given natural language query. Recently, many approaches employing contrastive learning have shown promising results on code representation learning and greatly improved the performance of →

code search contrastive learning data augmentation negative samples multimodal contrastive learning

发现论文，激发创造

CoDA: 自然语言理解的对比增强和多样性促进数据增强

本文提出了一种名为 CoDA 的新型数据增强框架，通过整合多种转换方法，试图解决文本数据增强中的标签保留问题。实验表明，CoDA 架构在多种自然语言理解任务中平均提高了 2.2% 的效果，相较其他基线方法表现更强

Oct, 2020

关于代码到代码搜索的语义相似性对比学习

本文介绍了一种新的代码到代码搜索技术，通过包括静态和动态特征以及在训练过程中利用相似和不同的示例来提高大型语言模型的性能。我们展示了第一个能够在训练期间编码动态运行时信息的代码搜索方法，在推断时间无需执行搜索语料库或搜索查询，同时还是第一个训练正负参考样本的代码搜索技术。我们通过一系列研究验证了我们方法的有效性，并展示了增强 LLMs 执行跨语言代码到代码搜索的能力。我们的评估表明，我们的方法的效果在各种模型架构和编程语言中都是一致的。此外，我们的消融研究表明，即使在训练过程中只有一个正面和负面参考样本，也会产生相当大的性能提高，这证明了相似和不同的参考是代码搜索的重要部分。重要的是，我们展示了精心制作的、经过调整的模型在性能上始终优于未调整的更大的现代 LLMs，即使是在增强最大可用 LLMs 时也是如此，这凸显了开源模型的重要性。为了确保我们研究的可重复性和可扩展性，我们介绍了一个名为 Cosco 的开源实现和培训过程

May, 2023

CoSQA: 2 万 + Web 查询用于代码搜索和问题回答

通过引入 CoSQA 数据集，我们提出了一种名为 CoCLR 的对比学习方法，该方法的作用是作为一种数据增强器，以产生更多人工生成的训练实例，从而增强查询 - 代码匹配，实验表明，使用 CoSQA 进行训练可将代码问题回答的准确性提高 5.1％，并且使用 CoCLR 进一步提高 10.5％。

May, 2021

自监督对比学习：基于语义保持转换实现代码检索和摘要

Corder 是一种自监督对比学习框架，用于源代码模型，通过使用一组语义保持变换操作来生成在语法上具有多样性但在语义上是等效的代码片段，从而能够在没有标记数据的情况下进行代码检索和代码摘要。

Sep, 2020

MixCo：视觉表征的混合对比学习

本篇论文提出一种名为 MixCo 的半阳性对比学习方法，它可以通过学习混合图像的相关相似度，有效提高自我监督学习中的图像表示性能。在实验中，MixCo 在 TinyImageNet、CIFAR10 和 CIFAR100 等基准测试集上一致地提高了测试准确率，且当模型大小等学习能力受限时，改进效果更为显著。

Oct, 2020

探究对比学习中负样本对句子嵌入影响的案例研究

本文提出了一种 Momentum 对比学习模型（MoCoSE），用于为句子嵌入提供正负样本，验证了负样本队列的历史信息对模型性能的影响，结果表明历史信息处于某个特定范围时，模型性能最佳。在语义文本相似度（STS）任务中测试，取得平均 Spearman‘s 相关系数为 77.27% 的结果。

Feb, 2022

CoaCor: 代码检索强化学习注释

本文研究了一种新颖的代码检索方法 CoaCor，通过强化学习的方式训练一个代码注释模型，以便于更好的检索相关的代码片段，并且实验证明此方法能够帮助现有的代码检索模型提升性能。

Mar, 2019

CODER: 用于图像 - 文本检索的耦合多样性感知动量对比学习

本文提出了一种基于对比学习的新型跨模态表征方法 Coupled Diversity-Sensitive Momentum Constrastive Learning（CODER），通过引入动态字典和适应性负对权重，使用实例级嵌入和概念级描述符提高跨模态表征，经过对 MSCOCO 和 Flicker30K 数据集的大量实验，CODER 明显优于当前基准方法。

Aug, 2022

对比代码表示学习

本文介绍了应对在自然语言生成中源代码编辑的二义性问题的解决方案 ——ContraCode，通过对许多非等价程序的功能相似变体进行对比预训练的方式来实现源代码功能性的学习，并在 JavaScript 总结和 TypeScript 类型推断准确性上取得了较大的提升。

Jul, 2020

CoDa: 基于约束生成的数据增强方法用于低资源 NLP

CoDa 是一种控制性、有效性且无需训练的数据增强技术，用于低资源（数据不足）自然语言处理。通过从每个样本中提取简单的约束条件，我们使用指令型大型语言模型生成满足这些约束条件的文本，从而产生了多样且新颖的训练实例。我们的研究结果表明，遵循下游数据集中的简单约束条件的合成数据作为有效的数据增强，在不需要复杂的解码约束生成技术或精细调优的情况下，CoDa 可以实现这一目标，从而避免了模型偏向训练样本数量较少的问题。此外，CoDa 是第一个可以让用户对数据增强生成过程进行明确控制的框架，并支持多个领域的简单适应性。通过覆盖 3 种任务和 3 种低资源设置的 11 个数据集，我们展示了 CoDa 的有效性，其相对基准模型在定性和定量上均有 0.12%-7.19% 的改进。代码可在此链接中找到：this https URL。

Mar, 2024