及时安全补丁检测 ——LLM 在数据增强中的托底支持
使用静态代码分析工具 Bandit 的反馈驱动解决方案综合(FDSS)对大型语言模型(LLMs)进行改进,通过与 LLMs 交互生成潜在解决方案来修复安全漏洞,该方法在基准测试中显著改善并超过现有方法,并引入了新的 PythonSecurityEval 数据集进行评估。
Nov, 2023
使用大型语言模型的程序修复任务中,通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集,我们的系统能够在更少的案例中准确匹配人工修复,并显著提升可用模型的性能。
Feb, 2024
评估预训练的大型语言模型(LLMs)在复制开发人员在代码审查评论中传统执行的任务方面的效果,通过比较它们生成的修补程序集与相同代码库的人工生成的修补程序集的历史数据,来确定 LLMs 的反馈的准确性、相关性和深度,从而评估它们支持开发人员应对代码审查评论的准备程度。
Apr, 2024
通过使用大型语言模型在生成补丁方面具有成本效益和可扩展性,本研究探索了大型语言模型用于生成具有微架构侧信道泄露的易受攻击代码的潜力.
Aug, 2023
通过使用大型语言模型(LLMs)来辅助发现源代码中的漏洞,相比传统的静态分析工具,我们发现 LLMs 能够找出更多问题,提高漏洞检测的回溯率和 F1 分数,从而使得代码更加安全。
May, 2024
研究致力于自动修复代码漏洞的复杂挑战,引入了一种新的代码修改表示格式,使用了先进的大型语言模型(如 Code Llama 和 Mistral)。这些模型在 C 代码漏洞数据集上进行了微调,显着提高了自动代码修复技术的准确性和适应性。研究还对当前的评估指标(如完美预测)进行了关键评估,并强调了在真实场景中反映自动修复模型真正能力的局限性。研究强调了在代码修复任务中提高 LLMs 效果的数据集完整性和训练样本缺失测试数据集的重要性。此工作对数字安全的贡献不仅体现在提高代码安全方面的潜力上,而且推动了这些关键领域的进一步探索与研究。
Jan, 2024
大规模语言模型 (LLM) 在检测安卓应用的漏洞方面表现出色,通过构建基于人工智能的工作流,能够帮助开发者识别和修复漏洞,并展示其有效性。实验证明,LLMs 在 Ghera 基准测试中能够准确标记不安全应用的案例达到 91.67%。此外,我们的实验还揭示了不同配置对真正阳性(TP)和假阳性(FP)率的影响。
Jan, 2024
Code Pre-trained Models (CodePTMs) based vulnerability detection struggles to generalize as they typically learn superficial mapping from source code to labels, resulting in poor performance in real-world scenarios. To address this, VulLLM integrates multi-task learning with Large Language Models (LLMs) to effectively mine deep-seated vulnerability features, surpassing seven state-of-the-art models in terms of effectiveness, generalization, and robustness.
Jun, 2024
通过研究使用大型语言模型(LLMs)在代码审查中的作用,其中包括检测安全漏洞和验证软件功能的有效性,本文发现大型专有模型在这些任务上的性能显著优于小型开源模型,并证明了 LLMs 能够生成与真实漏洞相关的详细描述。
Mar, 2024