LLM 平台的安全性:将系统评估框架应用于 OpenAI 的 ChatGPT 插件
在本文中,我们系统地分析了 LLM 系统的安全性,通过建立信息流及其在 LLM 内部和 LLM 与其他对象之间的一致性约束,将 LLM 系统的攻击面分解为三个关键部分:多层安全分析,约束存在性分析和这些约束的鲁棒性分析。通过对最新的 LLM 系统 OpenAI GPT4 的多层和多步骤分析,我们发现了不仅仅存在于 LLM 模型本身,还包括与其他组件整合的安全问题。我们发现尽管 OpenAI GPT4 已经设计了多重安全约束来提高其安全性,但这些安全约束仍然容易受到攻击。为了进一步展示我们发现的漏洞的现实威胁,我们构建了一个端到端攻击,黑客可以非法获取用户的聊天历史,而无需操纵用户的输入或直接访问 OpenAI GPT4。
Feb, 2024
本研究提出了一种新的攻击框架,旨在检验第三方 API 与大型语言模型平台的安全漏洞,通过对广泛使用的大型语言模型进行实证分析,发现了可悄无声息地修改模型输出的实际恶意攻击,探讨了第三方 API 集成带来的独特挑战,并提出了未来改善大型语言模型生态系统安全性的战略方案。
Apr, 2024
通过模拟用户与大型语言模型的交互,提出了一种增强网络安全的方法,包括全面的元宇宙网络安全问答和攻击模拟场景,以帮助用户认识和抵御风险,并通过扩展训练来理解个性化输入和表情符号等用户内容,验证了该方法的有效性。
Dec, 2023
通过证明概念,利用 ChatGPT 作为代理并与受害者建立通信,该研究揭示了开放可用插件和大型语言模型存在的重要网络安全问题,需要开发安全指南、控制措施和缓解策略。
Aug, 2023
通过针对大型语言模型(LLM)存在的安全风险进行评估,本研究填补了当前研究的空白,并提出了一种基于提示的攻击风险分类方法,以强调 LLM 在用户 - 模型通信路径上的安全风险。该分类方法通过具体的攻击示例加以支持,并旨在为安全性强、值得信赖的 LLM 应用程序的开发提供指导。
Nov, 2023
使用大型语言模型(LLMs)作为 LLM 集成应用程序的服务后端的情况下,我们发现了潜在的攻击面和漏洞,并开发了一种轻量级、抗威胁的防御方法,以最大程度减少威胁并保证应用程序的完整性、来源识别、攻击可检测性和实用性保留。
Nov, 2023
本文介绍了由肯塔基大学应用人工智能中心开发的一种用户友好的平台,旨在提高大型定制化语言模型(LLMs)的可用性。通过利用最近在多 LoRA 推理方面的进展,该系统有效地适应了各种用户和项目的定制适配器。该论文概述了系统的体系结构和主要特点,包括数据集筛选、模型训练、安全推理和基于文本的特征提取。
Feb, 2024
本研究使用自动化工作流程,对 ChatGPT、LLaMA 和 OPT 等主流 LLM 进行了数百万次查询,得出了 LLM 在稳健性、一致性和可信度方面存在的问题,提出了一种新的关联数据集索引来评估使用 LLM 进行学术评估的可行性。
May, 2023
介绍了一种名为 garak 的框架,可以发现和识别目标大型语言模型或对话系统中的漏洞,从而为漏洞在不同背景下的构成、LLM 部署的对齐和政策讨论等提供了有根据的讨论。
Jun, 2024