对软件漏洞评估中的数据不平衡问题的缓解措施：数据增强是否有帮助？

Jul, 2024

对软件漏洞评估中的数据不平衡问题的缓解措施：数据增强是否有帮助？

Mitigating Data Imbalance for Software Vulnerability Assessment: Does Data Augmentation Help?

Triet H. M. Le, M. Ali Babar

TL;DR软件漏洞评估中存在的数据不平衡问题对预测性能有重要影响，通过数据增强方法可以解决该问题并显著提高评估模型的预测性能。

Abstract

Background: Software Vulnerability (SV) assessment is increasingly adopted to address the ever-increasing volume and complexity of SVs. Data-driven approaches have been widely used to automate SV assessment tasks, particularly the prediction of the Common Vulnerability Scoring System (CVSS) metrics such as exploitability, impact, and severity. SV assessment

发现论文，激发创造

基于机器学习的自动化软件漏洞检测

利用机器学习和深度神经网络，针对C++程序开发了一种基于数据驱动的漏洞检测方法，研究结果表明结合源代码和神经网络特征，可以获得更可靠的漏洞检测结果，最高检测能力达到0.87。

Feb, 2018

一个手动维护的开源软件漏洞修复数据集

通过运用漏洞评估工具，我们从国家漏洞数据库和专为开发监测的Web资源中手动收集并精选了一批开源软件漏洞的数据集，共映射到205个不同的开源Java项目中的624个漏洞，并且可通过支持脚本自动检索相应的存储库的实际内容，并补充每个实例可用的属性，这已被成功用来训练分类器，以自动识别代码存储库中的安全关联提交。

Feb, 2019

V2W-BERT: 一种有效的软件漏洞层次多类分类框架

本文介绍了一种基于Transformer学习框架的新方法(V2W-BERT)，通过自然语言处理、链接预测和迁移学习等思想，自动将Common Vulnerabilities and Exposures (CVE) 映射到 Common Weakness Enumerations(CWE)，准确地解决了在网络安全方面的问题，可应用于寻找软件漏洞和缓解网络攻击。

Feb, 2021

领域自适应和最大间隔原则的跨项目软件漏洞检测

本文提出了一种基于深度领域自适应和跨域核分类器的端到端方法，解决软件漏洞检测中的自动表示和标记数据集不足等关键问题。实验结果表明，该方法在F1-Measure等指标上的性能显著优于现有方法。

Sep, 2022

学习量化漏洞模式和匹配来定位语句级漏洞

通过学习漏洞模式，提出一种基于漏洞匹配的新方法来检测软件漏洞，该方法在188,000个C/C++函数的数据集上取得了F1-score 94%的高准确度。

May, 2023

软件漏洞预测中的潜在漏洞：实证研究

本研究通过分析两个常用的软件漏洞数据集中的潜在易受攻击函数，探讨了这些潜在漏洞函数在功能级和行级漏洞预测中的利用，并发现潜在函数能够显著提高漏洞预测模型的性能，并增强漏洞行定位的效果，从而为提高漏洞数据集质量和增强漏洞预测任务的性能迈出了有前景的第一步。

Jan, 2024

低资源语言中的软件漏洞预测：CodeBERT 和 ChatGPT 的实证研究

在新兴语言中，软件漏洞预测面临数据稀缺的挑战，CodeBERT的性能显著下降，而ChatGPT展现出有希望的结果，在低资源情况下提高了功能级和行级软件漏洞预测性能。

Apr, 2024

机器学习中漏洞检测的影响因素解析

研究了软件项目中不同因素对于识别漏洞的准确性的影响，通过挖掘软件库中的漏洞并使用机器学习技术进行自动检测。通过实验发现，将基于词袋模型的签名与随机森林模型相结合，在17个真实世界项目中能提高4%的检测准确率，并观察到在跨域中转移漏洞签名的局限性。

Jun, 2024

深度学习漏洞检测在真实数据集上的性能再探讨

该研究探讨了软件漏洞对日常软件系统的重大影响，评估了深度学习模型在现实场景中的表现，并发现了性能下降和过拟合等问题，提出了一个改进的数据集用于评估模型，并提出了增强技术以提高性能。

Jul, 2024

基于RAG的脆弱性增强研究与大型语言模型的探索

本研究针对脆弱性检测中的数据不足问题，提出了一种新颖的利用大型语言模型（LLMs）与检索增强生成（RAG）相结合的脆弱性增强策略。实验结果显示，该方法在多种脆弱性数据集上显著提高了检测模型的性能，指明了在数据增强中实现规模化生成的潜力。

Aug, 2024