探索代码搜索中的表示层增广

EMNLPOct, 2022

Exploring Representation-Level Augmentation for Code Search

Haochen Li, Chunyan Miao, Cyril Leung, Yanxian Huang, Yuan Huang...

TL;DR本研究提出了一种在表示级别进行数据增强的方法来提高代码搜索模型的性能，其中包括三种新的增强方法，并理论和实验评估了这些方法的优势。

Abstract

code search, which aims at retrieving the most relevant code fragment for a given natural language query, is a common activity in software development practice. Recently, contrastive learning is widely used in

code search contrastive learning data augmentation representation-level programming languages

发现论文，激发创造

探索代码生成任务的数据增强技术

本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练，该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。

Feb, 2023

数据增强在源代码学习中的应用：一项实证研究

本篇研究探讨使用数据增强方法，如 mixup 和 syntax-breaking，对于用于源代码语言的训练数据的质量提升，结果表明这些方法可以产生更准确和稳健的模型。

Mar, 2023

使用更强数据增强进行对比学习

该研究提出了一种名为 Contrastive Learning with Stronger Augmentations（CLSA）的新的对比学习方法，利用数据扩增引入样本多样性，从而提高检索能力，实验结果表明该方法在 ImageNet 数据集上的表现接近有监督结果。

Apr, 2021

规模化的代码表示学习

通过大量的代码数据进行编码表示学习，使用两阶段的预训练方案以及对比学习的方式增强表示，在各种下游任务上持续显著地超过现有的模型，详细讨论了源代码的自定义和有效的令牌级去噪方案、硬负样本与硬正样本的重要性、提出的双模态对比学习如何提升跨语义搜索性能以及预训练方案对模型规模决定下游任务性能的影响。

Feb, 2024

虚拟增强支持对比学习句子表示

通过 VaSCL 提出了一种虚拟增强支持的对比学习方法，解决了在自然语言处理中由于自然语言的离散性而无法运用通用规则进行数据增强，从而获得了无监督句子表示学习的最新最佳表现。

Oct, 2021

可微分数据增强用于对比句子表示学习

本文提出了一种基于对比学习框架的预训练语言模型微调方法，通过硬样本挖掘和使用不同 iable 的数据扩增技术，达到了在无标记或有标记数据上提高句子表示质量的目的。实验证明，该方法在半监督和监督学习设置下都优于现有对比学习方法，并且对标注数据更加高效。

Oct, 2022

重新思考对比学习中的增强模块：通过扩展视图学习层次化增强不变性

本文介绍了一种利用对比学习中数据增强的方法来解决多个数据增强方法所带来的问题，该方法在不同深度上对不同的数据增强实现学习以及扩展对比内容以减少过多的数据增强对于下游任务带来的负面影响，通过实验证明了该方法可以有效学习与多个基准测试相关的更好的表示。

Jun, 2022

利用可比语料和多个参考文献进行代码翻译的数据增强

通过构建可比较的语料库和多重参考翻译，以及使用自动生成的翻译参考和单元测试进行筛选，我们提出了两种数据增强技术来克服不同编程语言之间的代码翻译挑战，并通过平均 7.5% 的计算准确度改进了 CodeT5 的 Java、Python 和 C++ 代码翻译性能。

Nov, 2023

自适应增强的图形对比学习

本文提出了一种新的自适应增强方法，通过设计基于节点中心性和节点属性的增强策略来保留图的内在结构和属性信息，并验证此方法在节点分类任务中优于现有方法和监督学习模型。

Oct, 2020

时间序列对比学习的参数增强

通过分析时间序列数据增强使用信息理论，并总结最常采用的增强方法，我们提出了一种参数增强的对比学习框架 AutoTCL，它可以自适应地支持时间序列表示学习，无缝集成在不同的主干编码器中，实验证明在一元预测任务和分类任务中，我们的方法分别比领先的基准方法平均降低 6.5% 和 4.7% 的误差，并提高 1.2% 的平均准确率。

Feb, 2024