通过提示注入从 ChatGPT 中窃取个人信息
本文提供了一份对 AI 自定义 GPT 模型中提示注入的分析,并评估了此类攻击的可能缓解措施,结果强调了在设计和部署可定制的 GPT 模型时迫切需要强大的安全框架,以确保 GPT 定制化的好处不会以安全和隐私的牺牲为代价。
Nov, 2023
本文发现可以利用 ChatGPT 生成的恶意提示来生成钓鱼网站,并发现这些钓鱼网站可以模仿流行品牌并模拟几种逃避反钓鱼实体检测的策略,而无需使用先前的对抗性操作(越狱)。
May, 2023
大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而,发布 ChatGPT 和其他类似工具后,人们越来越担心难以控制大语言模型及其输出的问题。目前,我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战,新出现了一种名为提示注入的攻击方式。相反,开发人员试图同时发现这些漏洞并阻止攻击。在本文中,我们概述了这些新出现的威胁,并提供提示注入的分类,以指导未来有关提示注入的研究,并作为在 LLM 接口开发中漏洞检查清单。此外,基于先前的文献和我们自己的实证研究,我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。
Jan, 2024
这篇论文评估了 ChatGPT(GPT-3.5、GPT-4)对数字取证领域的影响和潜在影响,重点关注最新的预训练 LLM GPT-4,通过一系列实验评估了它在包括文物理解、证据搜索、代码生成、异常检测、事件响应和教育等多个数字取证应用场景中的能力,并总结了它的优势和风险。综合而言,尽管 ChatGPT 在数字取证领域存在一些潜在的低风险应用,但很多应用目前不适用,因为需要将证据上传至服务端,或者需要对所询问的话题具有足够的知识以识别错误的假设、不准确性和错误。然而,对于合适的知识用户而言,在某些情况下,它可以作为一个有用的辅助工具。
Jul, 2023
本研究提出了 BadGPT,这是第一种针对语言模型强化学习 Fine-Tuning 的后门攻击,将后门注入奖励模型,导致生成文本被攻击者操纵,初步实验在 IMDB 上得到了验证。
Feb, 2023
本文探索了 ChatGPT 在涉及完整漏洞管理过程的六项任务中的能力,并使用包含 78,445 个样本的大规模数据集对其进行了比较。结果表明 ChatGPT 在辅助漏洞管理方面具有巨大的潜力,但同时也揭示了它所遇到的困难,并为未来的研究方向提供了启示。
Nov, 2023
本研究研究了 Large Language Models(LLMs)中存在的内容限制和潜在误用的挑战,并调查了与破解 LLMs 相关的三个关键问题:不同提示类型的数量、提示对抗 LLMs 限制的有效性以及 ChatGPT 对这些提示的鲁棒性。该研究根据分类模型分析现有提示的分布,识别了 10 种不同模式和三种破解提示类别。此外,研究利用 8120 个问题的数据集,评估了 ChatGPT 版本 3.5 和 4.0 中破解提示的能力,最终发现提示可以在 40 个用例场景中始终逃脱限制。该研究强调了提示结构在破解 LLMs 中的重要性,并讨论了生成和防止鲁棒破解提示的挑战。
May, 2023
通过从 GPT-4V 中成功窃取内部系统提示并使用 SASP(自我对抗攻击系统提示)方法进行监狱破解,本研究发现了 Multimodal Large Language Models(MLLMs)的潜在安全风险并提出了相应的防御方法,以显著降低监狱破解的成功率。
Nov, 2023
本文旨在提供有关 ChatGPT 的安全风险的概述,包括恶意文本和代码生成、私人数据披露、诈骗服务、信息收集和生成不道德内容等。我们进行了一项实证研究,检验了 ChatGPT 内容过滤器的有效性,并探讨了绕过这些保护措施的潜在方式,展示了即使当有保护措施时,LLMs 仍存在的伦理和安全风险。基于对安全风险的定性分析,我们讨论了应对这些风险的潜在策略,并向研究人员、决策者和行业专业人员提供有关像 ChatGPT 这样的 LLMs 所面临的复杂安全挑战的信息。本研究对 LLMs 的伦理和安全影响的持续讨论做出了贡献,强调了在此领域需要继续进行研究的必要性。
May, 2023
本技术报告评估了 ChatGPT 和 GPT-3 模型在代码漏洞检测任务上的性能。通过使用 CWE 漏洞的二进制和多标签分类任务对真实世界数据集进行评估,结果表明 ChatGPT 在代码漏洞检测的二进制和多标签分类任务中表现不如一个虚拟分类器。
Apr, 2023