大型语言模型能否发现和修复易受攻击的软件?
使用大型语言模型的程序修复任务中,通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集,我们的系统能够在更少的案例中准确匹配人工修复,并显著提升可用模型的性能。
Feb, 2024
通过使用大型语言模型(LLMs)来辅助发现源代码中的漏洞,相比传统的静态分析工具,我们发现 LLMs 能够找出更多问题,提高漏洞检测的回溯率和 F1 分数,从而使得代码更加安全。
May, 2024
研究论文对大型语言模型(LLMs)在系统安全领域中的影响和局限性进行了探讨,发现 ChatGPT 不仅在生成代码方面有出色的能力,还在理解用户提供的自然语言指令、推理程序的控制和数据流、生成复杂数据结构以及反汇编汇编代码等方面展示了强大的能力。研究表明,GPT-4 在大多数安全任务中相较于 GPT-3.5 有显著改进,同时也确定了 ChatGPT 在安全相关任务中的某些限制,例如处理长代码上下文的能力受限。
Dec, 2023
利用大语言模型(如 GPT3.5)增强渗透测试人员的能力,通过高级任务规划和低级漏洞挖掘两个使用案例,实现了与人工智能合作伙伴的潜在应用,并在可漏洞虚拟机中实施自动化攻击向量及分析,并对提供基于人工智能的合作伙伴的伦理问题进行了讨论。
Jul, 2023
本研究探讨了 ChatGPT 和 Bard 这两个大型语言模型在发现和修复 JavaScript 程序中的安全漏洞方面的准确性,以及提示语境对定位 LLMs 生成正确补丁的影响。实验结果显示,虽然 LLMs 在自动修复 JavaScript 代码方面具有潜力,但要实现正确的缺陷修复往往需要适当的提示语境。
Mar, 2024
通过对 GPT-4 在对抗机器学习领域的研究案例进行评估,发现它能够在攻击算法的实施上比作者更高效,并成功破解了 AI-Guardian 提出的方案,该方案在增加鲁棒性方面并不比未进行防御时的基线有所提高。
Jul, 2023
基于大型语言模型(LLMs)和静态分析相结合,开发了一个基于 Rust 的形式验证框架 Verus 的原型。通过将验证任务分解为多个较小的任务,迭代地查询 GPT-4,并将其输出与轻量级静态分析相结合,这个原型显著减少了编写入门级证明代码的人力工作。
Nov, 2023
本研究调查了大规模语言模型(LLM),特别是 GPT-4,在二进制反向工程(RE)领域的能力。通过采用结构化的实验方法,我们分析了 LLM 在解释和说明人工编写的和反编译的代码方面的性能。研究分为两个阶段:第一阶段是基本代码解释,第二阶段是更复杂的恶意软件分析。主要发现表明 LLM 在一般代码理解方面能力强,但在详细技术和安全分析方面的有效性有所不同。本研究强调了 LLM 在反向工程中的潜力和当前的局限性,为未来的应用和改进提供了关键见解。此外,我们还研究了实验方法,如评估方法和数据限制,为该领域的任何未来研究活动提供了技术视野。
Jun, 2024