探索代码搜索中的表示层增广
本文探讨了自然语言处理、迁移学习和数据利用等技术在编程语言任务中的应用以及基于增强方法的模型训练,该方法可使代码翻译和摘要的准确率分别提高至 6.9% 和 7.5%。
Feb, 2023
本篇研究探讨使用数据增强方法,如 mixup 和 syntax-breaking,对于用于源代码语言的训练数据的质量提升,结果表明这些方法可以产生更准确和稳健的模型。
Mar, 2023
该研究提出了一种名为 Contrastive Learning with Stronger Augmentations(CLSA)的新的对比学习方法,利用数据扩增引入样本多样性,从而提高检索能力,实验结果表明该方法在 ImageNet 数据集上的表现接近有监督结果。
Apr, 2021
通过大量的代码数据进行编码表示学习,使用两阶段的预训练方案以及对比学习的方式增强表示,在各种下游任务上持续显著地超过现有的模型,详细讨论了源代码的自定义和有效的令牌级去噪方案、硬负样本与硬正样本的重要性、提出的双模态对比学习如何提升跨语义搜索性能以及预训练方案对模型规模决定下游任务性能的影响。
Feb, 2024
通过 VaSCL 提出了一种虚拟增强支持的对比学习方法, 解决了在自然语言处理中由于自然语言的离散性而无法运用通用规则进行数据增强, 从而获得了无监督句子表示学习的最新最佳表现。
Oct, 2021
本文提出了一种基于对比学习框架的预训练语言模型微调方法,通过硬样本挖掘和使用不同 iable 的数据扩增技术,达到了在无标记或有标记数据上提高句子表示质量的目的。实验证明,该方法在半监督和监督学习设置下都优于现有对比学习方法,并且对标注数据更加高效。
Oct, 2022
本文介绍了一种利用对比学习中数据增强的方法来解决多个数据增强方法所带来的问题,该方法在不同深度上对不同的数据增强实现学习以及扩展对比内容以减少过多的数据增强对于下游任务带来的负面影响,通过实验证明了该方法可以有效学习与多个基准测试相关的更好的表示。
Jun, 2022
通过构建可比较的语料库和多重参考翻译,以及使用自动生成的翻译参考和单元测试进行筛选,我们提出了两种数据增强技术来克服不同编程语言之间的代码翻译挑战,并通过平均 7.5% 的计算准确度改进了 CodeT5 的 Java、Python 和 C++ 代码翻译性能。
Nov, 2023
本文提出了一种新的自适应增强方法,通过设计基于节点中心性和节点属性的增强策略来保留图的内在结构和属性信息,并验证此方法在节点分类任务中优于现有方法和监督学习模型。
Oct, 2020
通过分析时间序列数据增强使用信息理论,并总结最常采用的增强方法,我们提出了一种参数增强的对比学习框架 AutoTCL,它可以自适应地支持时间序列表示学习,无缝集成在不同的主干编码器中,实验证明在一元预测任务和分类任务中,我们的方法分别比领先的基准方法平均降低 6.5% 和 4.7% 的误差,并提高 1.2% 的平均准确率。
Feb, 2024