人工智能卫士的 LLM 辅助开发

Jul, 2023

A LLM Assisted Exploitation of AI-Guardian

Nicholas Carlini

TL;DR通过对 GPT-4 在对抗机器学习领域的研究案例进行评估，发现它能够在攻击算法的实施上比作者更高效，并成功破解了 AI-Guardian 提出的方案，该方案在增加鲁棒性方面并不比未进行防御时的基线有所提高。

Abstract

large language models (LLMs) are now highly capable at a diverse range of tasks. This paper studies whether or not gpt-4, one such LLM, is capable of assisting researchers in the field of →

large language models gpt-4 adversarial machine learning ai-guardian robustness

发现论文，激发创造

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

偶尔安全性：代码生成助理的比较分析

大型语言模型 (Large Language Models，LLMs) 被广泛应用于各种应用中，代码生成作为一个显著例子。本文聚焦于确定和理解在真实场景中，LLMs 可有效且安全地用于生成高质量代码的条件和环境。通过对四个先进的 LLMs (GPT-3.5 和 GPT-4，ChatGPT，Bard 和 Gemini) 进行比较分析，使用 9 个不同任务评估每个模型的代码生成能力。我们将研究情境化，以代表日常工作中开发人员使用 LLMs 执行常见任务的典型用例。此外，我们强调安全意识，通过使用我们的开发者角色的两个不同版本来表示。总共我们收集了 61 个代码输出并分析了其功能性、安全性、性能、复杂性和可靠性等方面。这些洞见对于理解模型的能力和限制非常重要，并指导未来在自动化代码生成领域的开发和实际应用。

Feb, 2024

生成人工智能与大型语言模型在网络安全中的应用洞见

通过生成式人工智能和大型语言模型（LLM），该论文对未来的网络安全进行了全面回顾，并探讨了 LLM 在硬件设计安全、入侵检测、软件工程、设计验证、网络威胁情报、恶意软件检测和钓鱼检测等各个领域的应用。论文提供了将 LLM 集成到未来网络安全框架中的基础理解和战略方向，强调创新和强大的模型部署以保护免受不断演变的网络威胁。

May, 2024

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

大型语言模型能否发现和修复易受攻击的软件？

通过评估 OpenAI 的 GPT-4 等大型语言模型与传统的静态代码分析器（如 Snyk 和 Fortify）在检测软件漏洞方面的能力，我们发现 GPT-4 能够识别出大约四倍于其他模型的漏洞，并提供可行的修复方案，同时显示出较低的误报率。未来研究应当探索系统级漏洞，并整合多个静态代码分析器，以获得对大型语言模型潜力的全面视角。

Aug, 2023

加强人工智能中的道德界限：提升大型语言模型安全的高级策略

通过引入多方面的方法，包括过滤敏感词汇、检测角色扮演、实施自定义规则引擎和扩展到各种大型语言模型衍生物，我们解决了大型语言模型在道德、安全和隐私方面的挑战，并且保持了高性能。这项研究为平衡问答系统的效率与用户隐私和道德标准提供了一个框架，确保了更安全的用户体验并增加了对 AI 技术的信任。

Jan, 2024

人工通用智能的火花：GPT-4 的早期实验

本文报道了 OpenAI 发展的最新模型 GPT-4，证明其不仅能够掌握语言，而且在数学、编码、视觉、医学、法律和心理等多个领域中都能够解决新颖且困难的任务，表现接近于甚至超过人类的水平，代表了一种新的群体智能的语言模型，并可能被视为人工通用智能（AGI）系统的早期、但尚不完整的版本。同时，本文还探讨了 GPT-4 的局限性，指出其可能需要超越下一个预测的新范式，为实现更深入和全面的 AGI 版本的发展面临的挑战，以及该技术飞跃的社会影响和未来研究方向的反思。

Mar, 2023

AI 大规模语言模型的渗透测试

利用大语言模型（如 GPT3.5）增强渗透测试人员的能力，通过高级任务规划和低级漏洞挖掘两个使用案例，实现了与人工智能合作伙伴的潜在应用，并在可漏洞虚拟机中实施自动化攻击向量及分析，并对提供基于人工智能的合作伙伴的伦理问题进行了讨论。

Jul, 2023

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024