ZC3:零样本跨语言代码克隆检测
本文提出了一个新的多语言代码克隆检测问题,以及一种名为 cross-consistency training (CCT) 的新型训练程序和一种 CCT-LM 语言模型,该模型在不同编程语言的源代码上训练,在 POJ-104 代码克隆检测基准测试中实现了 95.67%的 MAP 和 AdvTest 代码搜索基准测试中的 47.18%MRR 最佳结果,并在新创建的多语言代码克隆检测基准测试 XCD 中展现出最好的成绩。
May, 2023
本文提出了神经符号方法,通过中间表示(IR)和 UnixCoder 优化,实现了 COBOL 代码克隆任务,取得了 12.85 MAP@2 的表现提升。
Apr, 2023
AdaCCD 是一种新颖的跨语言适应方法,可以在新的语言中检测克隆代码,而无需任何该语言的注释。AdaCCD 利用预训练的编程语言模型中的语言无关的代码表示,并提出了自适应精炼对比学习框架,以将知识从资源丰富的语言传递到资源匮乏的语言。通过构建由 5 种编程语言组成的多语言代码克隆检测基准集,我们评估了 AdaCCD 的跨语言适应结果。与其他基线方法相比,AdaCCD 取得了显著的改进,甚至可以与监督微调方法相媲美。
Nov, 2023
通过比较两个最先进模型 CodeBERT 和 CodeGraph 在两个基准数据集上的表现,本文论证了源代码克隆检测是一个图而非序列,并且基于图的方法在跨语言代码克隆检测上优于基于序列的方法。
Dec, 2023
本文介绍了一种零射击跨语言主题模型,利用迁移学习来处理多个语言的数据集,以解决传统基于词袋的主题模型所面临的单语言或巨大而稀疏的词汇表等问题,并评估了在不同语言中同一篇文章的主题预测的准确性和连贯性,结果表明所转移的主题是连贯且稳定的,具有潜在的未来研究方向。
Apr, 2020
本研究探讨了如何将零 - shot 模型从高资源语言(一般是英语)迁移到其他语言,结果表明在不同语言的查询和文档中使用零 - shot 排名算法的有效性会降低。因此,我们提出利用双语词典生成人工混合语言的数据来训练排名模型,我们对从跨语言词嵌入和平行维基百科页面标题引导的词典进行了实验,最终在多语言、跨语言和单语言信息检索方面进行了评估。结果表明,使用代码切换可以在跨语言和多语言检索中带来一致且实质性的收益。
May, 2023
该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法,它可以用于构建跨语言图像检索模型和改进文本嵌入聚类,并在多语言环境下进行评估。
Nov, 2020
本论文探讨采用跨语言预训练的零样本方法来学习多模态表示,提出建立跨语言图像检索模型的简单实用方法,并引入了一种新的目标函数来测试多语言 MSCOCO2014 字幕测试数据集(XTD10)的零样本模型性能,证明跨语言模型可用于零样本的下游任务, 如多语言图像标记。
Sep, 2021
提出了一种对 LLMs 生成的代码进行训练无关的检测方法,以减少与它们的无差别使用相关的风险。通过对现有的基于训练或零样本的文本检测方法进行研究,我们发现这些方法对代码的检测不够有效,可能是由于代码结构中所具有的独特统计特性。本研究通过修改之前的零样本文本检测方法,利用代理的白盒模型来估计最右侧标记的概率,从而能够识别由语言模型生成的代码片段。通过对 CodeContest 和 APPS 数据集的 Python 代码进行大量实验,我们的方法在 text-davinci-003、GPT-3.5 和 GPT-4 模型上取得了最新的检测结果,并且对修订攻击具有鲁棒性,并且对 Java 代码具有很好的通用性。同时,我们还发现较小的代码语言模型 PolyCoder-160M 作为通用代码检测器的表现优于十亿级别的对应模型。代码可在此 https URL Xianjun-Yang/Code_detection.git 获取。
Oct, 2023
我们研究了大型语言模型在非生成性任务中的应用,以代码克隆检测为例,通过使用基于提示的模式,ChatGPT 在跨语言代码克隆检测中表现出色,并且在单语言代码克隆检测方面与完全微调的模型的性能相当,同时,提示和问题的难度水平对 ChatGPT 的性能有影响。
Jan, 2024