Oct, 2023

加强大型语言模型进行安全代码生成:基于数据集的漏洞缓解研究

TL;DR大型语言模型(LLMs)在代码生成方面取得了显著进展,但它们的训练使用了来自开源代码库(如 GitHub)的未经筛选的数据,存在意外传播安全漏洞的风险。为了有效地减轻这一问题,本文从软件安全的角度对代码 LLMs 进行了全面研究,并提出了 SecuCoGen 数据集,用于评估和增强代码 LLMs 的安全性能。研究结果发现,现有模型在代码生成中经常忽视安全问题,提出了有效的方法来解决安全漏洞,并提高代码的整体稳健性。此外,研究还发现现有模型在修复漏洞代码方面存在问题,并且某些漏洞类型对模型构成挑战。基于这些发现,我们相信本研究将对软件工程社区产生积极影响,激发改进 LLMs 训练和使用方法的开发,从而实现更安全、更可信的模型部署。