LLMs 在 Web 开发中：评估 LLM 生成的 PHP 代码揭示的漏洞和局限性

Apr, 2024

LLMs 在 Web 开发中：评估 LLM 生成的 PHP 代码揭示的漏洞和局限性

LLMs in Web-Development: Evaluating LLM-Generated PHP code unveiling vulnerabilities and limitations

Rebeka Tóth, Tamas Bisztray, László Erdodi

TL;DR该研究通过分析一组包含 2,500 个小型动态 PHP 网站的数据集，全面检查了大型语言模型生成的 Web 应用程序代码安全性。评估了这些部署为独立网站的人工智能生成网站中的安全漏洞，并采用了 Burp Suite 主动扫描器、静态分析和手动检查的混合方法。研究重点在于识别和分析文件上传、SQL 注入、存储型 XSS 和反射型 XSS。该研究不仅凸显了 AI 生成的 PHP 代码存在的潜在安全缺陷，还对在实际场景中部署此类代码的可靠性和安全性问题提出了批判性观点。该研究确认了 27% 的由 GPT-4 生成的程序在 PHP 代码中存在漏洞，并且这个数字可能更高，这对软件的安全性构成了重大风险。为了为研究界做出贡献并促进进一步的分析，我们公开了源代码，并列举了每个样本检测到的漏洞。该研究不仅揭示了 AI 生成代码的安全方面，也强调了对此类技术进行严格测试和评估的迫切性。

Abstract

This research carries out a comprehensive examination of web application code security, when generated by large language models through analyzing a dataset comprising 2,500 small dynamic PHP websites. These ai-generated

web application code security large language models ai-generated sites security vulnerabilities php code

发现论文，激发创造

您的 AI 生成代码真的安全吗？基于 CodeSecEval 的安全代码生成对大型语言模型的评估

大规模语言模型（LLMs）在代码生成和修复方面取得了重大进展，但它们使用来自 GitHub 等开源存储库的未经过滤的数据进行训练可能会传播安全漏洞。本文旨在全面评估和增强代码 LLMs 的安全性，并提出了不同策略来减轻这些安全漏洞。

Jul, 2024

大型语言模型中 Java 安全 API 的滥用调查

在这篇论文中，我们系统评估了 ChatGPT 在 Java 的安全 API 使用情景中，生成代码的可信性。我们编制了 48 个编程任务的广泛集合，包含 5 个广泛使用的安全 API。通过自动和手动方法检测 ChatGPT 生成的代码中的安全 API 误用，我们的发现是令人担忧的：30 次尝试中，大约 70% 的代码实例存在安全 API 误用，识别出了 20 种不同的误用类型。此外，对于大约一半的任务，这一比例达到了 100%，这表明在开发人员可以依赖 ChatGPT 安全实现安全 API 代码之前还有很长的路要走。

Apr, 2024

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

大型语言模型能否发现和修复易受攻击的软件？

通过评估 OpenAI 的 GPT-4 等大型语言模型与传统的静态代码分析器（如 Snyk 和 Fortify）在检测软件漏洞方面的能力，我们发现 GPT-4 能够识别出大约四倍于其他模型的漏洞，并提供可行的修复方案，同时显示出较低的误报率。未来研究应当探索系统级漏洞，并整合多个静态代码分析器，以获得对大型语言模型潜力的全面视角。

Aug, 2023

加强大型语言模型进行安全代码生成：基于数据集的漏洞缓解研究

大型语言模型（LLMs）在代码生成方面取得了显著进展，但它们的训练使用了来自开源代码库（如 GitHub）的未经筛选的数据，存在意外传播安全漏洞的风险。为了有效地减轻这一问题，本文从软件安全的角度对代码 LLMs 进行了全面研究，并提出了 SecuCoGen 数据集，用于评估和增强代码 LLMs 的安全性能。研究结果发现，现有模型在代码生成中经常忽视安全问题，提出了有效的方法来解决安全漏洞，并提高代码的整体稳健性。此外，研究还发现现有模型在修复漏洞代码方面存在问题，并且某些漏洞类型对模型构成挑战。基于这些发现，我们相信本研究将对软件工程社区产生积极影响，激发改进 LLMs 训练和使用方法的开发，从而实现更安全、更可信的模型部署。

Oct, 2023

比较 ChatGPT 生成代码和 StackOverflow 答案的安全漏洞

将 ChatGPT 生成的代码与 StackOverflow 的代码进行比较，发现 ChatGPT 生成的代码存在较少的漏洞和较少的常见弱点枚举类型，结果表明开发人员对于两个平台的代码传播存在不安全的认识，需要采取良好的软件工程实践来降低风险。

Mar, 2024

JavaScript 程序中基于大规模语言模型的漏洞修复研究

本研究探讨了 ChatGPT 和 Bard 这两个大型语言模型在发现和修复 JavaScript 程序中的安全漏洞方面的准确性，以及提示语境对定位 LLMs 生成正确补丁的影响。实验结果显示，虽然 LLMs 在自动修复 JavaScript 代码方面具有潜力，但要实现正确的缺陷修复往往需要适当的提示语境。

Mar, 2024

大型语言模型代码生成的鲁棒性和可靠性研究

最近，大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而，对于 LLMs 生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括 1208 个编程问题的数据集 RobustAPI，用于评估 LLMs 生成的代码的可靠性和鲁棒性，并发现甚至对于 GPT-4 而言，62% 的生成代码存在 API 误用，这可能导致意想不到的后果。

Aug, 2023

使用 SALLMS 评估 LLM 生成代码的安全性

作者描述了一个名为 SALLM 的框架，用于系统地评估大型语言模型生成安全代码的能力，该框架包括一个安全中心的 Python 提示的新数据集，一个用于测试生成代码的评估环境，以及用于从安全代码生成的角度评估模型性能的新度量标准。

Nov, 2023

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024