AI 大规模语言模型的渗透测试

Jul, 2023

Getting pwn'd by AI: Penetration Testing with Large Language Models

Andreas Happe, Jürgen Cito

TL;DR利用大语言模型（如 GPT3.5）增强渗透测试人员的能力，通过高级任务规划和低级漏洞挖掘两个使用案例，实现了与人工智能合作伙伴的潜在应用，并在可漏洞虚拟机中实施自动化攻击向量及分析，并对提供基于人工智能的合作伙伴的伦理问题进行了讨论。

Abstract

The field of software security testing, more specifically penetration testing, is an activity that requires high levels of expertise and involves many manual testing and analysis steps. This paper explores the potential usage of →

software security testing penetration testing large-language models ai sparring partners vulnerability hunting

发现论文，激发创造

软件渗透测试中使用大型语言模型的初步研究

利用大型语言模型（LLM）构建用于软件渗透测试的人工智能代理，通过反复使用和提示工程来提高模型性能。

Jan, 2024

大型语言模型能否发现和修复易受攻击的软件？

通过评估 OpenAI 的 GPT-4 等大型语言模型与传统的静态代码分析器（如 Snyk 和 Fortify）在检测软件漏洞方面的能力，我们发现 GPT-4 能够识别出大约四倍于其他模型的漏洞，并提供可行的修复方案，同时显示出较低的误报率。未来研究应当探索系统级漏洞，并整合多个静态代码分析器，以获得对大型语言模型潜力的全面视角。

Aug, 2023

自我欺骗：大型语言模型语义防火墙的逆渗透

通过研究语言模型监管的方法和攻击，本文提出一种自动破解监管的方法，即引入语意防火墙概念并提供三种技术实现方式，从而成功地实施了 “自欺” 攻击。实验证明该方法的有效性，为未来研究提供了启示。

Aug, 2023

生成人工智能与大型语言模型在网络安全中的应用洞见

通过生成式人工智能和大型语言模型（LLM），该论文对未来的网络安全进行了全面回顾，并探讨了 LLM 在硬件设计安全、入侵检测、软件工程、设计验证、网络威胁情报、恶意软件检测和钓鱼检测等各个领域的应用。论文提供了将 LLM 集成到未来网络安全框架中的基础理解和战略方向，强调创新和强大的模型部署以保护免受不断演变的网络威胁。

May, 2024

人工智能卫士的 LLM 辅助开发

通过对 GPT-4 在对抗机器学习领域的研究案例进行评估，发现它能够在攻击算法的实施上比作者更高效，并成功破解了 AI-Guardian 提出的方案，该方案在增加鲁棒性方面并不比未进行防御时的基线有所提高。

Jul, 2023

DeepCode AI Fix: 用大型语言模型修复安全漏洞

使用大型语言模型的程序修复任务中，通过降低训练数据量、使用代码剪裁技术及构建全面的代码修复数据集，我们的系统能够在更少的案例中准确匹配人工修复，并显著提升可用模型的性能。

Feb, 2024

深入的 AI：使 LLMs 理解物理世界

最近大型语言模型（LLMs）的发展展示了它们在各种任务中的显著能力。然而，关于 LLMs 的性质及其在涉及真实物理世界信息的任务中整合常识人类知识的潜力仍有疑问。本文通过探索 LLMs 如何通过物联网传感器和执行器与物理世界互动和推理，即所谓的 “穿透型人工智能”，深入探讨了这些问题。本文在两个层面上探索了 LLMs 渗透进物理世界的能力，通过处理感官信号。我们的初步发现表明，LLMs，尤其是 ChatGPT 作为我们探索的代表性例子，在利用它们在训练过程中学到的知识来解释物联网传感器数据并对其进行推理的任务中具有相当独特的能力和技巧。这不仅打开了 LLMs 在传统的基于文本任务之外的新应用领域，而且使得将人类知识纳入到网络物理系统中的方式得以实现。

Oct, 2023

利用大型语言模型有效扩展鱼叉式网络钓鱼攻击

通过对大规模语言模型在网络钓鱼领域的应用研究，发现现有的大规模语言模型对于网络罪犯在网络钓鱼攻击中的情报收集和信息生成阶段提高了效率，在此基础上，通过 600 个英国议员的案例研究发现应用于网络钓鱼的语言模型不仅效果逼真，且花费非常低；在此基础上，提出了两种解决方案，即应用程序接口等结构化访问方案和基于大规模语言模型的防御系统，强调了治理干预的必要性。

May, 2023

探索 ChatGPT 在软件安全应用中的极限

研究论文对大型语言模型（LLMs）在系统安全领域中的影响和局限性进行了探讨，发现 ChatGPT 不仅在生成代码方面有出色的能力，还在理解用户提供的自然语言指令、推理程序的控制和数据流、生成复杂数据结构以及反汇编汇编代码等方面展示了强大的能力。研究表明，GPT-4 在大多数安全任务中相较于 GPT-3.5 有显著改进，同时也确定了 ChatGPT 在安全相关任务中的某些限制，例如处理长代码上下文的能力受限。

Dec, 2023

加强人工智能中的道德界限：提升大型语言模型安全的高级策略

通过引入多方面的方法，包括过滤敏感词汇、检测角色扮演、实施自定义规则引擎和扩展到各种大型语言模型衍生物，我们解决了大型语言模型在道德、安全和隐私方面的挑战，并且保持了高性能。这项研究为平衡问答系统的效率与用户隐私和道德标准提供了一个框架，确保了更安全的用户体验并增加了对 AI 技术的信任。

Jan, 2024