garak: 大型语言模型安全探测框架

Jun, 2024

garak: A Framework for Security Probing Large Language Models

Leon Derczynski, Erick Galinkin, Jeffrey Martin, Subho Majumdar, Nanna Inie

TL;DR介绍了一种名为 garak 的框架，可以发现和识别目标大型语言模型或对话系统中的漏洞，从而为漏洞在不同背景下的构成、LLM 部署的对齐和政策讨论等提供了有根据的讨论。

Abstract

As large language models (LLMs) are deployed and integrated into thousands of applications, the need for scalable evaluation of how models respond to adversarial attacks grows rapidly. However, →

large language models llm security adversarial attacks garak vulnerabilities

发现论文，激发创造

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

LLM 风险与 AI 防护栏的现状

大型语言模型 (LLMs) 的部署与安全性及可靠性密切相关，然而它们在引入的同时也伴随着固有的风险，包括偏见、潜在的不安全行为、数据集污染、不可解释性、幻觉和非可重复性，为了避免潜在的危害，本研究探讨了部署 LLMs 所面临的风险，并评估了目前实施防护和模型对齐技术的方法，从固有和外在偏见评估方法入手，并讨论了公平度度量方法，还探讨了能够进行现实世界行为的主动型 LLMs 的安全性和可靠性，强调了可测试性、故障保护和情境意识的需求，还提出了保护 LLMs 的技术策略，包括操作在外部、次要和内部层次的分层保护模型，突出系统提示、检索增强生成 (RAG) 架构以及最小化偏见和保护隐私的技术，有效的防护设计要求深入理解 LLMs 的预期用例、相关法规和伦理因素，在精确性和隐私等竞争需求之间取得平衡仍然是一个持续挑战，本研究强调了持续研究和开发的重要性，以确保 LLMs 在实际应用中的安全和负责任使用。

Jun, 2024

LLM 平台的安全性：将系统评估框架应用于 OpenAI 的 ChatGPT 插件

通过插件生态系统来提高大型语言模型平台的安全性、隐私性和安全性，提出了一种攻击分类法的框架，在 OpenAI 的插件生态系统中应用了该框架，并提出了改进当前和未来基于 LLM 的计算平台的建议。

Sep, 2023

大型语言模型中的漏洞和保护探索：调查

大型语言模型是各种人工智能应用中的关键组件，理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了 LLMs 的安全挑战，重点关注两个主要领域：Prompt Hacking 和 Adversarial Attacks，每个领域都有特定类型的威胁。通过对 Prompt Hacking 和 Adversarial Attacks 的分析，研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战，并讨论了保护 LLMs 免受这些威胁的强大防御框架。通过详细阐述这些安全问题，调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。

Jun, 2024

保障大型语言模型的研究综述

在大语言模型（LLMs）领域中，开发一个强健的安全机制，俗称 “保障措施” 或 “防护栏”，已成为确保在既定边界内道德使用 LLMs 的必要措施。本文通过系统性文献综述，讨论了这种关键机制的当前状态，探讨了其主要挑战，并阐述如何将其发展为一种全面应对各种情境中的道德问题的机制。

Jun, 2024

基于 LLM 的实际系统中的安全问题探索：LLM 安全的新时代

在本文中，我们系统地分析了 LLM 系统的安全性，通过建立信息流及其在 LLM 内部和 LLM 与其他对象之间的一致性约束，将 LLM 系统的攻击面分解为三个关键部分：多层安全分析，约束存在性分析和这些约束的鲁棒性分析。通过对最新的 LLM 系统 OpenAI GPT4 的多层和多步骤分析，我们发现了不仅仅存在于 LLM 模型本身，还包括与其他组件整合的安全问题。我们发现尽管 OpenAI GPT4 已经设计了多重安全约束来提高其安全性，但这些安全约束仍然容易受到攻击。为了进一步展示我们发现的漏洞的现实威胁，我们构建了一个端到端攻击，黑客可以非法获取用户的聊天历史，而无需操纵用户的输入或直接访问 OpenAI GPT4。

Feb, 2024

大型语言模型的安全风险分类

通过针对大型语言模型（LLM）存在的安全风险进行评估，本研究填补了当前研究的空白，并提出了一种基于提示的攻击风险分类方法，以强调 LLM 在用户 - 模型通信路径上的安全风险。该分类方法通过具体的攻击示例加以支持，并旨在为安全性强、值得信赖的 LLM 应用程序的开发提供指导。

Nov, 2023

KGPA: 大型语言模型的跨领域知识图谱鲁棒性评估

本文提出了一种通过知识图谱来评估大型语言模型在对抗攻击场景下的鲁棒性的框架，并通过生成原始提示和毒化的对抗提示来评估模型的鲁棒性。实验证明，ChatGPT 家族的对抗鲁棒性在 GPT-4-turbo > GPT-4o > GPT-3.5-turbo，而大型语言模型的鲁棒性受其所操作的专业领域的影响。

Jun, 2024

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

评估大型语言模型安全性的因果分析

这项研究提出了一个轻量级因果分析框架，应用于大型语言模型，分析其存在的安全问题，尤其是对抗性扰动和特洛伊攻击，并发现了对模型造成有害提示过拟合的现象，以及一种有效的特洛伊攻击方法。

Dec, 2023