利用增强学习和语义奖励的 LLM 驱动代码漏洞修复

Jan, 2024

利用增强学习和语义奖励的 LLM 驱动代码漏洞修复

LLM-Powered Code Vulnerability Repair with Reinforcement Learning and Semantic Reward

Nafis Tanveer Islam, Joseph Khoury, Andrew Seong, Gonzalo De La Torre Parra, Elias Bou-Harb...

TL;DR我们引入了一种多用途的代码漏洞分析系统 SecRepair，由一个大型语言模型 CodeGen2 提供支持，帮助开发人员识别和生成修复后的代码，并附带一个完整的漏洞描述和代码评论。我们的创新方法利用增强学习范式来生成由语义奖励机制增强的代码评论。研究结果强调，将增强学习与语义奖励结合起来，提高了模型在处理代码漏洞方面的能力和效果。

Abstract

In software development, the predominant emphasis on functionality often supersedes security concerns, a trend gaining momentum with AI-driven automation tools like github copilot. These tools significantly impro

software development github copilot code security vulnerability analysis reinforcement learning

发现论文，激发创造

利用大型语言模型的强化学习修复代码安全漏洞

为了加强和增强通过 Large Language Models 生成的代码的安全性，在本文中，我们提出了一种基于强化学习的程序特定修复方法，结合语义和句法奖励机制，重点关注在代码中增加安全和功能性措施。

Jan, 2024

利用大型语言模型增强自动化代码漏洞修复

研究致力于自动修复代码漏洞的复杂挑战，引入了一种新的代码修改表示格式，使用了先进的大型语言模型（如 Code Llama 和 Mistral）。这些模型在 C 代码漏洞数据集上进行了微调，显着提高了自动代码修复技术的准确性和适应性。研究还对当前的评估指标（如完美预测）进行了关键评估，并强调了在真实场景中反映自动修复模型真正能力的局限性。研究强调了在代码修复任务中提高 LLMs 效果的数据集完整性和训练样本缺失测试数据集的重要性。此工作对数字安全的贡献不仅体现在提高代码安全方面的潜力上，而且推动了这些关键领域的进一步探索与研究。

Jan, 2024

DeepCode AI Fix: 用大型语言模型修复安全漏洞

使用大型语言模型的程序修复任务中，通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集，我们的系统能够在更少的案例中准确匹配人工修复，并显著提升可用模型的性能。

Feb, 2024

加强大型语言模型进行安全代码生成：基于数据集的漏洞缓解研究

大型语言模型（LLMs）在代码生成方面取得了显著进展，但它们的训练使用了来自开源代码库（如 GitHub）的未经筛选的数据，存在意外传播安全漏洞的风险。为了有效地减轻这一问题，本文从软件安全的角度对代码 LLMs 进行了全面研究，并提出了 SecuCoGen 数据集，用于评估和增强代码 LLMs 的安全性能。研究结果发现，现有模型在代码生成中经常忽视安全问题，提出了有效的方法来解决安全漏洞，并提高代码的整体稳健性。此外，研究还发现现有模型在修复漏洞代码方面存在问题，并且某些漏洞类型对模型构成挑战。基于这些发现，我们相信本研究将对软件工程社区产生积极影响，激发改进 LLMs 训练和使用方法的开发，从而实现更安全、更可信的模型部署。

Oct, 2023

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

您的 AI 生成代码真的安全吗？基于 CodeSecEval 的安全代码生成对大型语言模型的评估

大规模语言模型（LLMs）在代码生成和修复方面取得了重大进展，但它们使用来自 GitHub 等开源存储库的未经过滤的数据进行训练可能会传播安全漏洞。本文旨在全面评估和增强代码 LLMs 的安全性，并提出了不同策略来减轻这些安全漏洞。

Jul, 2024

针对黑盒代码生成模型的安全漏洞自动发现方法

本文提出了第一种自动发现黑盒生成模型中安全漏洞的方法，并基于少量提示提出了新颖的黑盒逆转方法。通过对高风险安全弱点的代码生成模型进行研究，我们展示了我们的方法可以自动系统地发现各种代码生成模型中的上千个安全漏洞，包括商业黑盒模型 GitHub Copilot。

Feb, 2023

使用深度表示学习自动检测源代码中的漏洞

这项研究利用 C/C++ 开源代码，使用机器学习开发了一个基于函数级别的漏洞检测系统，并使用三个定位潜在攻击的静态分析器精心筛选标注了数百万个开源函数的数据集。研究表明深度学习源代码的特征表示法是一种自动化软件漏洞检测的有前途的方法。

Jul, 2018

AutoCodeRover：自主程序改进

提出了一种自动化的方法 AutoCodeRover，将 LLMs 与复杂的代码搜索能力相结合，从而实现对 Github 问题的自主解决，进而实现程序改进。

Apr, 2024

基于信息论和对比学习的方法，识别导致软件漏洞的代码语句

通过深度学习方法及聚类空间对比学习，精准识别程序漏洞中的漏洞相关代码语句，本方法运用于现实数据集上优于其他最新基线算法，显著提高 VCP、VCA、Top-10 ACC 等效果。

Sep, 2022