针对 GPT 模型的对话重建攻击

Feb, 2024

Conversation Reconstruction Attack Against GPT Models

Junjie Chu, Zeyang Sha, Michael Backes, Yang Zhang

TL;DR近期，大型语言模型（LLMs）的领域取得了显著进展，GPT 系列模型为代表。为了优化任务执行，用户通常与云环境中的 GPT 模型进行多轮对话。本文介绍了一种特定的针对 GPT 模型的对话重建攻击，评估了其中存在的隐私风险，并引入了两种高级攻击来更好地重建以前的对话。研究结果表明，在涉及 GPT 模型的对话中存在隐私风险，并旨在引起社区的关注，以防止对这些模型杰出功能的潜在滥用。

Abstract

In recent times, significant advancements have been made in the field of large language models (LLMs), represented by GPT series models. To optimize task execution, users often engage in multi-round conversations with g

large language models privacy risks conversation reconstruction attack gpt models advanced attacks

发现论文，激发创造

快速采用，隐含风险：大型语言模型定制的双重影响

我们的研究论文首次提出了针对与不受信任的定制大型语言模型（例如 GPTs）集成的应用程序的指令后门攻击，这些攻击通过设计带有后门指令的提示将后门嵌入到定制的语言模型中，并在输入包含预定义触发器时输出攻击者所需的结果。我们的研究结果强调了定制化语言模型（如 GPTs）的脆弱性和潜在风险。

Feb, 2024

使用 ChatGPT 作为攻击工具：通过黑盒生成模型触发的微妙文本后门攻击

本文研究黑盒生成模型作为后门攻击工具的作用以及相关防御策略，通过提出的基于生成模型的攻击方法 BGMAttack，证明其在对文本分类器进行攻击时能够有效地欺骗目标模型且更具隐秘性。五个不同数据集的广泛攻击效果评估，以及三个不同的人类认知评估均证明了该攻击方法的表现与基准方法相当，但更隐蔽。

Apr, 2023

ChatGPT 多步越狱隐私攻击

本研究探讨了 OpenAI 和 New Bing API 应用中集成的大型语言模型对隐私的威胁，通过实验支持了对应用集成的 LLM 可能带来比以前更严重的隐私威胁的观点。

Apr, 2023

通过手工制作的对抗性例子评估预训练语言模型的容易受攻击性

本文探讨了最新的预训练语言模型（PLMs），包括 GPT-3 和 BERT，存在安全漏洞，使其容易受到对抗性攻击的影响，并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。

Sep, 2022

从大型语言模型中提取训练数据

本研究论文在大规模语言模型训练及私人数据集保护之间发现了一定的矛盾，由此提出了一种通过查询语言模型进行训练数据提取的攻击方法，并以 GPT-2 为例证，能够成功地提取训练数据中的个人信息、代码等敏感信息，这也提示着训练数据的隐私和安全问题，需要进一步的技术防范措施。

Dec, 2020

ChatGPT 应用于数字取证调查：益处、弊端与未知

这篇论文评估了 ChatGPT（GPT-3.5、GPT-4）对数字取证领域的影响和潜在影响，重点关注最新的预训练 LLM GPT-4，通过一系列实验评估了它在包括文物理解、证据搜索、代码生成、异常检测、事件响应和教育等多个数字取证应用场景中的能力，并总结了它的优势和风险。综合而言，尽管 ChatGPT 在数字取证领域存在一些潜在的低风险应用，但很多应用目前不适用，因为需要将证据上传至服务端，或者需要对所询问的话题具有足够的知识以识别错误的假设、不准确性和错误。然而，对于合适的知识用户而言，在某些情况下，它可以作为一个有用的辅助工具。

Jul, 2023

揭示 ChatGPT 的安全、隐私和道德关切

该研究论述了 ChatGPT，这是一个利用主题建模和强化学习生成自然回复的人工智能聊天机器人。通过探索从 GPT-1 到 GPT-4 的升级路径，讨论模型的特点、局限性和潜在应用，该研究旨在揭示将 ChatGPT 融入我们日常生活中可能存在的安全、隐私和伦理问题，并分析这些领域的开放问题，呼吁共同努力确保安全和道德无可争议的大型语言模型的发展。

Jul, 2023

BadGPT: 通过后门攻击探究 ChatGPT 的安全漏洞

本研究提出了 BadGPT，这是第一种针对语言模型强化学习 Fine-Tuning 的后门攻击，将后门注入奖励模型，导致生成文本被攻击者操纵，初步实验在 IMDB 上得到了验证。

Feb, 2023

使用 GPT-4 初探表格数据的零 - shot 隐私 - 效用权衡

我们研究了大型语言模型（LLMs），特别是 GPT-4，在涉及表格数据中隐私与效用之间的权衡场景中的应用。我们的方法是通过将表格数据转化为文本格式，然后以无监督的方式包含精确的消除敏感信息的指示来激活 GPT-4。我们的主要目标是以一种使得现有的机器学习模型无法准确推断私密特征，但仍能准确推断与效用相关的属性的方式消除表格数据。我们探索了各种消除敏感信息的方法。值得注意的是，我们发现这种相对简单的方法所产生的性能与用于管理隐私和效用权衡的更复杂的对抗优化方法相当。此外，虽然这种指示能够成功地隐藏私密特征，使得现有的机器学习模型无法检测到，但我们观察到仅仅依靠这种隐藏并不能满足一系列的公正性指标。尽管如此，我们的研究表明 LLMs 在满足这些公正性指标方面具有潜在的有效性，我们的一些实验结果与已建立的对抗优化技术所达到的结果相一致。

Apr, 2024

大型语言模型中的嵌入信息泄漏

该研究探讨了大型语言模型在数据隐私方面引发的关切，并研究了恶意模型提供者通过输入重建攻击来侵犯隐私的潜力。研究提出了两种基础方法以重建模型隐藏状态中的原始文本，并介绍了一种基于 Transformer 的方法以重建深层嵌入的输入。研究发现 Embed Parrot 在从 ChatGLM-6B 和 Llama2-7B 的隐藏状态中重建原始输入方面表现良好，并提出了一种防御机制以阻止嵌入重建过程的滥用。研究结果强调在分布式学习系统中保护用户隐私的重要性，并为增强此类环境中的安全协议提供了有价值的见解。

May, 2024