LLMs 对安全代码审查的深入探讨

Jan, 2024

Security Code Review by LLMs: A Deep Dive into Responses

Jiaxin Yu, Peng Liang, Yujia Fu, Amjed Tahir, Mojtaba Shahin...

TL;DR应用大型语言模型进行安全代码审查时，其生成的回复通常存在冗长、含糊和不完整等问题，需要提高其简练性、可理解性和安全缺陷检测的合规性。本研究比较了三种先进的大型语言模型在 549 个包含安全缺陷的真实代码审查文件上的五个提示下的检测性能，通过分析最佳性能的大型语言模型 - 提示组合产生的 82 个回复中 100 个随机选择的代码文件，提取和分类了这些回复中存在的质量问题，总结出 5 个主题和 16 个类别。该研究揭示了大型语言模型生成的回复在安全代码审查中的不足之处，并为未来优化大型语言模型以更好地完成这一任务铺平了道路。

Abstract

security code review aims to combine automated tools and manual efforts to detect security defects during development. The rapid development of Large Language Models (llms) has shown promising potential in softwa

security code review large language models llms defect detection llm-generated responses

发现论文，激发创造

偶尔安全性：代码生成助理的比较分析

大型语言模型 (Large Language Models，LLMs) 被广泛应用于各种应用中，代码生成作为一个显著例子。本文聚焦于确定和理解在真实场景中，LLMs 可有效且安全地用于生成高质量代码的条件和环境。通过对四个先进的 LLMs (GPT-3.5 和 GPT-4，ChatGPT，Bard 和 Gemini) 进行比较分析，使用 9 个不同任务评估每个模型的代码生成能力。我们将研究情境化，以代表日常工作中开发人员使用 LLMs 执行常见任务的典型用例。此外，我们强调安全意识，通过使用我们的开发者角色的两个不同版本来表示。总共我们收集了 61 个代码输出并分析了其功能性、安全性、性能、复杂性和可靠性等方面。这些洞见对于理解模型的能力和限制非常重要，并指导未来在自动化代码生成领域的开发和实际应用。

Feb, 2024

利用线性逻辑方法进行软件漏洞和功能评估

通过研究使用大型语言模型（LLMs）在代码审查中的作用，其中包括检测安全漏洞和验证软件功能的有效性，本文发现大型专有模型在这些任务上的性能显著优于小型开源模型，并证明了 LLMs 能够生成与真实漏洞相关的详细描述。

Mar, 2024

探索大型语言模型对初学者程序员求助请求的响应

本文探讨了在编程教育中使用大型语言模型（LLMs）的机会和威胁，研究表明 LLMs 有助于识别学生代码中的问题，但不可靠，需要在未来的研究中进一步挖掘。

Jun, 2023

软件渗透测试中使用大型语言模型的初步研究

利用大型语言模型（LLM）构建用于软件渗透测试的人工智能代理，通过反复使用和提示工程来提高模型性能。

Jan, 2024

使用 SALLMS 评估 LLM 生成代码的安全性

作者描述了一个名为 SALLM 的框架，用于系统地评估大型语言模型生成安全代码的能力，该框架包括一个安全中心的 Python 提示的新数据集，一个用于测试生成代码的评估环境，以及用于从安全代码生成的角度评估模型性能的新度量标准。

Nov, 2023

大型语言模型在漏洞检测方面的能力综合研究

大型语言模型在漏洞检测方面的推理能力较差，常出现错误定位漏洞代码和错误识别漏洞类型的情况。

Mar, 2024

DeepCode AI Fix: 用大型语言模型修复安全漏洞

使用大型语言模型的程序修复任务中，通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集，我们的系统能够在更少的案例中准确匹配人工修复，并显著提升可用模型的性能。

Feb, 2024

使用变形提示测试验证 LLM 生成的程序

我们提出了一种称为变质提示测试的新颖解决方案，用于解决由大型语言模型生成的代码质量和正确性所引发的挑战，并在 HumanEval 评估中显示，该方法能够检测到由 GPT-4 生成的错误程序的 75％，误报率为 8.6％。

Jun, 2024

利用大型语言模型进行软件漏洞检测：综合基准研究

通过使用大型语言模型（LLMs）来辅助发现源代码中的漏洞，相比传统的静态分析工具，我们发现 LLMs 能够找出更多问题，提高漏洞检测的回溯率和 F1 分数，从而使得代码更加安全。

May, 2024

LLM 能否修复安全问题？

使用静态代码分析工具 Bandit 的反馈驱动解决方案综合（FDSS）对大型语言模型（LLMs）进行改进，通过与 LLMs 交互生成潜在解决方案来修复安全漏洞，该方法在基准测试中显著改善并超过现有方法，并引入了新的 PythonSecurityEval 数据集进行评估。

Nov, 2023