通过使用大型语言模型(LLMs)来辅助发现源代码中的漏洞,相比传统的静态分析工具,我们发现 LLMs 能够找出更多问题,提高漏洞检测的回溯率和 F1 分数,从而使得代码更加安全。
May, 2024
基于大规模语言模型的代码生成领域的综述,介绍了对 LLMs 在代码生成领域的最新进展、数据处理、性能评估、实际应用,对学术与实践之间的差距进行了分析,提出了关键挑战和机遇,并提供了一个资源网站以记录和传播该领域的最新进展。
Jun, 2024
大型语言模型在漏洞检测方面的推理能力较差,常出现错误定位漏洞代码和错误识别漏洞类型的情况。
Mar, 2024
介绍和研究有潜在 bug 的代码补全问题,引入两个数据集,发现潜在 bug 显著降低 Code-LLMs 的性能,调查了几种后处理方法,但效果有限。
Jun, 2023
通过探索大型语言模型系统的四个关键模块,即接收提示的输入模块,基于丰富语料库的语言模型,用于开发和部署的工具链模块以及生成语言模型内容的输出模块,本文提出了一种综合分类方法,系统分析了每个模块可能涉及的潜在风险,并讨论了相应的缓解策略。此外,我们还回顾了流行基准以促进大型语言模型系统的风险评估。希望本文能帮助大型语言模型参与者从系统角度构建负责任的系统。
Jan, 2024
使用大型语言模型的程序修复任务中,通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集,我们的系统能够在更少的案例中准确匹配人工修复,并显著提升可用模型的性能。
Feb, 2024
最近,大型语言模型 (LLMs) 在理解自然语言和生成编程代码方面表现出了非凡的能力。然而,对于 LLMs 生成的代码的可靠性和鲁棒性的研究尚未得到深入的探讨。这项研究提出了一个包括 1208 个编程问题的数据集 RobustAPI,用于评估 LLMs 生成的代码的可靠性和鲁棒性,并发现甚至对于 GPT-4 而言,62% 的生成代码存在 API 误用,这可能导致意想不到的后果。
Aug, 2023
大型语言模型在软件开发中提供了许多令人兴奋的新功能,然而,这些模型的不透明性使得它们难以理解和检查,其不透明性带来了潜在的安全风险,因为对手可以训练和部署被损害的模型来干扰受害组织的软件开发过程,本研究总结了当前大型代码语言模型中特洛伊木马攻击的最新进展,并重点关注触发器 —— 特洛伊木马的主要设计要点,同时用一种新颖的触发器分类框架提供统一的定义。我们还希望对 Code LLMs 领域中的基本概念给出一个统一的定义,并对触发器设计对代码模型学习的影响进行讨论。
这篇研究报告分析了使用三个主要大型语言模型(CodeGen、PanGu-Coder 和 Codex)生成的代码中的 333 个错误模式,并通过在线调查得到了 34 位使用大型语言模型的从业人员和研究人员对这些错误模式的重要性和普遍性的确认。研究人员和从业人员可以利用这些发现来开发有效的大型语言模型生成代码的质量保证技术。该研究揭示了大型语言模型生成代码的独特特征。
通过综述知识融入大型语言模型的趋势、方法分类、基准和应用,本文概述了该研究领域的全貌,并指出了未来的研究方向。
Nov, 2023