代码漏洞识别的多视角预训练模型
Code Pre-trained Models (CodePTMs) based vulnerability detection struggles to generalize as they typically learn superficial mapping from source code to labels, resulting in poor performance in real-world scenarios. To address this, VulLLM integrates multi-task learning with Large Language Models (LLMs) to effectively mine deep-seated vulnerability features, surpassing seven state-of-the-art models in terms of effectiveness, generalization, and robustness.
Jun, 2024
在代码语言模型(Code LMs)和漏洞检测不断增长的兴趣下,我们研究了代码语言模型在漏洞检测方面的有效性。研究发现现有漏洞数据集存在重要不足,包括数据质量不高、标签准确性低和重复率高,导致模型在现实漏洞检测场景中的性能不可靠。为解决这些挑战,我们引入了 PrimeVul 数据集,用于训练和评估代码语言模型在漏洞检测方面的性能。通过对 PrimeVul 上的代码语言模型进行评估,发现现有基准明显高估了这些模型的性能。这些发现强调了当前能力和在安全角色中部署代码语言模型的实际需求之间存在的巨大差距,突出了在这一领域需要更多创新的研究。
Mar, 2024
本文提出了 CODE-MVP 模型来将多种不同的源代码视角集成到一个统一的框架中,并通过多视图对比预训练来学习其中的补充信息和类型推断目标函数,实验证明 CODE-MVP 优于其他现有模型在自然语言代码检索、代码相似性、代码缺陷检测等三个下游任务中的性能表现。
May, 2022
本文综述了视觉 - 语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022
通过将程序控制流图编码为图神经网络的多任务序列到序列 LLM 技术,结合多任务自我指导微调的自我说明和 LLM 自我指导,MSIVD 在漏洞检测方面取得了卓越的性能,达到了 0.92 的 F1 得分(BigVul 数据集)和 0.48 的 F1 得分(PreciseBugs 数据集)。
Jun, 2024
本研究提出了一种名为 Multiview Transformers for Video Recognition 的模型,通过实现不同空间和时间的分辨率,利用多个 encoder 对视频进行建模,从而在六个标准数据集上取得了最优秀的结果。
Jan, 2022
本文介绍了一种名为 PTM-VQA 的视频质量评估方法,利用预训练模型从不同方面为 VQA 带来益处,并提出了 ICID 损失和有效的候选模型选择方案,实验证明了该方法的有效性。
May, 2024
本文综述了预训练大型多模态模型的背景、任务定义、挑战、优势以及验证方式,并重点讨论了数据、目标、网络结构、知识增强等方面。此外,文章还给出了模型参数和结果的可视化和分析,并指出了未来的可能研究方向。
Feb, 2023
提出了一种结合 RoBERTa 模型和 GCN 模型的关于代码漏洞检测的多任务分类器,该模型采用了一个语义性漏洞图来降低偏差,并通过结合 Focal Loss 目标函数降低数据集不平衡的影响。在多个数据集的测试中,该模型表现优异,能够在最好的情况下提高 2.41% 和 18.75% 的检测效果,并且在针对知名 Github 代码库的 N-day 程序样本的测试中表现出 93% 的准确率,能够检测出 4 种零日漏洞。
Apr, 2023
我们提出了一种名为 XGV-BERT 的框架,结合预训练的 CodeBERT 模型和图神经网络(GCN)来检测软件漏洞,通过联合训练 CodeBERT 和 GCN 模块,该模型利用大规模预训练、通过图卷积学习训练数据的表示,其研究结果表明与 VulDeePecker 和 SySeVR 等现有方法相比,XGV-BERT 方法显著提高了漏洞检测的准确性。
Sep, 2023