Janus 界面：大型语言模型中的微调如何放大隐私风险

Oct, 2023

Janus 界面：大型语言模型中的微调如何放大隐私风险

The Janus Interface: How Fine-Tuning in Large Language Models Amplifies the Privacy Risks

Xiaoyi Chen, Siyuan Tang, Rui Zhu, Shijun Yan, Lei Jin...

TL;DR利用微小的个人可识别信息数据集完成 GPT-3.5 的微调，可以导致大量隐藏的个人信息被揭示。

Abstract

The era post-2018 marked the advent of large language models (LLMs), with innovations such as OpenAI's ChatGPT showcasing prodigious linguistic prowess. As the industry galloped toward augmenting model parameters and capitalizing on vast swaths of human language data, →

large language models security and privacy challenges personal identifiable information fine-tuning janus attack

发现论文，激发创造

大型语言模型可以作为良好的隐私保护学习者

利用特定域数据对大型语言模型进行微调时，存在个人身份信息敏感度的问题。为了解决这一挑战，我们引入了隐私保护语言模型（PPLM），通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析，并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是，正负样本指令微调成为一种有潜力的方法，可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。

Oct, 2023

ChatGPT 多步越狱隐私攻击

本研究探讨了 OpenAI 和 New Bing API 应用中集成的大型语言模型对隐私的威胁，通过实验支持了对应用集成的 LLM 可能带来比以前更严重的隐私威胁的观点。

Apr, 2023

LLM 是否能保守秘密？通过上下文完整理论测试语言模型的隐私影响

通过提出 ConfAIde 基准测试，我们的实验结果表明即使在使用了隐私保护提示或思维链推理后，如 GPT-4 和 ChatGPT 这样的最先进模型仍然有 39% 和 57% 的概率在具体情境中泄露私人信息，这凸显了探索基于推理和心智理论的新型推理时隐私保护方法的迫切需要。

Oct, 2023

使用 OpenAI API 来微调 GPT-3 是否会泄露个人身份信息？

本研究使用 OpenAI 的 fine-tuning API 对 GPT-3 进行隐私攻击，以确定是否可以从该模型中提取出个人身份信息（PII）。发现在针对两种任务的 fine-tuning GPT-3 中，模型会记忆和泄露从底层 fine-tuning 数据集中获取的关键的个人身份信息。

Jul, 2023

利用差分隐私私密微调大型语言模型

通过使用基于 Edgeworth 会计师的有限样本隐私保证 DP 框架，我们提出了一种针对 LLM 的 DP 细调框架 ewtune，该框架直接降低了噪声的影响，且在自然语言理解任务上将最新的 LLMs 性能提高了 1.1％。

Oct, 2022

潘多拉的白箱：开放式 LLM 中训练数据泄露的增加

本研究对开源大型语言模型的隐私攻击进行了系统研究，提出了威胁预训练和微调模型的成员推断攻击方法，并展示了近乎完美的攻击效果，强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。

Feb, 2024

大型语言模型（LLM）安全与隐私调查：优点、缺点和不好的一面

这篇论文探讨了大型语言模型与安全和隐私的交叉领域，研究了它们对安全和隐私的积极影响、潜在的风险和威胁，以及模型本身的固有漏洞。通过全面的文献综述，将研究结果分为 “有益” 的应用、恶意应用和漏洞及其防御措施。论文还指出了需要进一步研究的领域，并希望通过该研究揭示大型语言模型在加强和危及网络安全方面的潜力。

Dec, 2023

大型语言模型中的隐私：攻击、防御与未来方向

给出了当前针对大型语言模型（LLMs）的隐私攻击的全面分析，并对其进行了分类，同时提供了用于对抗这些隐私攻击的重要防御策略，并指出了 LLMs 发展中可能出现的新的隐私问题和未来的研究方向。

Oct, 2023

微调对齐语言模型牺牲了安全性，即使用户并无此意！

通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而，此类自定义微调的安全成本是多少？我们的研究发现，尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为，但当将微调权限扩展给最终用户时，它们却无法覆盖安全风险。我们的红队研究发现，只需使用少数恶意设计的训练样例对 GPT-3.5 Turbo 进行微调，就可能危及 LLMs 的安全对齐性。此外，我们的研究还揭示，即使没有恶意意图，只需使用良性且常用的数据集对 LLMs 进行微调，也可能无意中降低其安全对齐性。这些发现表明，细调对齐的 LLMs 引入了新的安全风险，而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析，并倡导进一步的研究努力，以加强对齐的 LLMs 的自定义微调的安全协议。

Oct, 2023

大型语言模型的关联能力量化及其对隐私泄露的影响

该研究探索了大型语言模型的关联能力，揭示了影响其关联信息能力的因素。研究发现随着模型规模的扩大，它们关联实体 / 信息的能力增强，但在关联常识知识与 PII 方面存在着明显的差距。这些发现强调了 LLM 对 PII 机密性的潜在威胁，特别是随着它们继续扩大规模和能力的过程中。

May, 2023