评估 200 + 定制 GPT 的提示注入风险

Nov, 2023

评估 200 + 定制 GPT 的提示注入风险

Assessing Prompt Injection Risks in 200+ Custom GPTs

Jiahao Yu, Yuhang Wu, Dong Shu, Mingyu Jin, Xinyu Xing

TL;DR本文提供了一份对 AI 自定义 GPT 模型中提示注入的分析，并评估了此类攻击的可能缓解措施，结果强调了在设计和部署可定制的 GPT 模型时迫切需要强大的安全框架，以确保 GPT 定制化的好处不会以安全和隐私的牺牲为代价。

Abstract

In the rapidly evolving landscape of artificial intelligence, chatgpt has been widely used in various applications. The new feature: customizatio

artificial intelligence chatgpt customization prompt injection attacks security vulnerabilities

发现论文，激发创造

大型语言模型上的早期提示注入攻击分类

大语言模型和 AI 聊天机器人在使人工智能民主化方面处于前沿。然而，发布 ChatGPT 和其他类似工具后，人们越来越担心难以控制大语言模型及其输出的问题。目前，我们正目睹用户试图滥用这些模型而开展的一场猫鼠大战，新出现了一种名为提示注入的攻击方式。相反，开发人员试图同时发现这些漏洞并阻止攻击。在本文中，我们概述了这些新出现的威胁，并提供提示注入的分类，以指导未来有关提示注入的研究，并作为在 LLM 接口开发中漏洞检查清单。此外，基于先前的文献和我们自己的实证研究，我们还讨论了提示注入对 LLM 终端用户、开发人员和研究人员的影响。

Jan, 2024

通过提示注入从 ChatGPT 中窃取个人信息

ChatGPT 4 和 4o 易受提示注入攻击的影响，导致攻击者可以查询用户的个人数据，该漏洞可以在不使用任何第三方工具的情况下适用于所有用户。该漏洞的严重性得到 ChatGPT 的内存特性的加剧，使攻击者可以命令 ChatGPT 来监视用户的所需个人数据。

May, 2024

快速采用，隐含风险：大型语言模型定制的双重影响

我们的研究论文首次提出了针对与不受信任的定制大型语言模型（例如 GPTs）集成的应用程序的指令后门攻击，这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中，并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型（如 GPTs）的脆弱性和潜在风险。

Feb, 2024

羊毛衣里的 GPT: 定制 GPT 的风险

OpenAI 引入了一项新服务，允许用户通过使用特定指令和知识来创建 ChatGPT (GPTs) 的定制版本，以引起人们对 GPTs 可能被恶意使用的风险，从而对用户的隐私和安全构成威胁的意识。

Jan, 2024

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

ChatGPT 毒性的全面评估

我们评估了 ChatGPT 中的毒性，并发现其毒性取决于提示的不同属性和设置，包括任务、领域、长度和语言，发现创意写作任务的提示可能比其他任务更容易引发有毒反应，德语和葡萄牙语的提示也会使反应的毒性加倍，此外，我们发现早期研究中设计的某些存心恶意的提示不再产生有害反应，希望我们的发现可以指引模型开发者更好地监管这些 AI 系统，并帮助用户避免不良输出。

Nov, 2023

通过提示工程优化机器翻译：ChatGPT 可定制性的研究探讨

这篇论文探讨了将翻译目的和目标受众整合到 ChatGPT 的提示中对所生成翻译质量的影响。研究强调了翻译过程中的前期准备阶段的重要性，通过借鉴以往的翻译研究、行业实践和 ISO 标准进行分析。研究发现，在像 ChatGPT 这样的大规模语言模型中加入适当的提示可以产生灵活的翻译，而传统的机器翻译尚未实现这一目标。通过使用 OpenAI 的词嵌入 API 进行余弦相似度计算，评估从从实际翻译员的视角主观和定性地进行，结果表明将翻译目的和目标受众整合到提示中确实可以修改所生成的翻译，从而在行业标准上普遍提高翻译质量。该研究还展示了 “良好的翻译” 概念的实际应用，特别是在营销文件和文化习语的背景下。

Aug, 2023

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

揭示 ChatGPT 的安全、隐私和道德关切

该研究论述了 ChatGPT，这是一个利用主题建模和强化学习生成自然回复的人工智能聊天机器人。通过探索从 GPT-1 到 GPT-4 的升级路径，讨论模型的特点、局限性和潜在应用，该研究旨在揭示将 ChatGPT 融入我们日常生活中可能存在的安全、隐私和伦理问题，并分析这些领域的开放问题，呼吁共同努力确保安全和道德无可争议的大型语言模型的发展。

Jul, 2023

关于 ChatGPT 在情感计算中的提示敏感性

通过敏感度分析和评估不同提示或生成参数对 foundation models 的性能敏感程度，探索 affective computing 领域中的 prompting 技术，以及对情感分析、毒性检测和讽刺检测等任务的性能影响。

Mar, 2024