通过令牌操作保护分类器中的隐私

Jul, 2024

通过令牌操作保护分类器中的隐私

Protecting Privacy in Classifiers by Token Manipulation

Re'em Harel, Yair Elboher, Yuval Pinter

TL;DR通过文本操作的水平，我们研究了使用语言模型作为远程服务时可能避免数据暴露的前景。我们聚焦于文本分类模型，检查各种令牌映射和上下文操作函数，以确定在保持原始文本不可恢复的同时能否保持分类器准确性。我们发现，尽管有些令牌映射函数容易实现，但它们对下游任务的性能有很大影响，并且通过一个复杂的攻击者可以重建。相比之下，上下文操作提供了性能的改进。

Abstract

Using language models as a remote service entails sending private information to an untrusted provider. In addition, potential eavesdroppers can intercept the messages, thereby exposing the information. In this w

language models remote service data exposure text manipulation contextualized manipulation

发现论文，激发创造

文本分类中的隐私泄露问题：一种数据提取方法

对于文本分类模型，从生成型语言模型中提取训练数据的可行性存在争议，提出了一种利用模型评价概率的算法来提取部分文本的缺失标记，以研究文本分类能否不小心记忆到与学习任务无关的训练数据并评估未经同意使用个人数据的审计策略。

Jun, 2022

利用大型语言模型从隐私保护掩码中恢复

使用大型语言模型，本研究探索了替代标记符的可行性，以保护用户隐私，分析了不同方法的实验结果，在下游语言建模任务中实现了与原始数据训练相媲美的性能。

Sep, 2023

语言模型维护隐私的含义是什么？

本文讨论保护自然语言隐私的技术是否足够广泛，提出现有数据保护方法不能为语言模型提供通用且有意义的隐私保护，因此应基于明确为公共使用的文本数据对语言模型进行训练。

Feb, 2022

分类器解构：针对文本分类模型的数据重构攻击

本文提出了一种名为 Mix And Match 的新型有针对性数据重构攻击，强调了考虑分类模型中的数据重构攻击与隐私风险的重要性，并提供了有关可能泄漏的见解。

Jun, 2023

隐形分类器：对敏感分类任务的伪姓名策略

分享我们的指南以及我们在处理敏感 NLP 数据时遇到的挑战和结果数据集，强调在数据共享中保护隐私的重要性，并确保数据的实用性和稳健的隐私保障。

Jun, 2024

预测文本语言模型的种植和减轻记忆内容

通过测试效用一系列隐私保护技术来缓解大型语言模型不经意地记忆保密训练数据的风险，实验表明，差分隐私有可靠的隐私保护效果，但是性能代价较大。

Dec, 2022

大型语言模型的知识清洗

我们探索了一种知识消毒方法，用于减轻与大型语言模型（LLMs）相关的隐私问题。我们的方法通过微调模型，在查询特定信息时，促使其生成无害回答，如 “我不知道”。实验证实，我们的简单方法不仅最小化了特定知识泄漏，还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御，并减少了产生幻觉等有害内容的排放。

Sep, 2023

文本隐私保护神经表示

本文主要研究基于深度学习自然语言处理中的对抗攻击，探讨攻击者如何通过窃取神经网络文本分类器的隐藏表示来获取敏感信息，为解决此问题，文章提出并论证多个防御方案，改进神经表示的隐私保护性能。

Aug, 2018

IDT：双任务对抗攻击用于隐私保护

本研究使用对抗攻击技术改变文本以欺骗隐私分类器，同时保持针对其他任务的分类器预测不变，提出了 IDT 方法，分析辅助及可解释模型的预测结果，以确定对于隐私任务需要改变的词汇和对于其他任务需要保留的关键词汇，实验证明 IDT 在保护隐私的同时仍保持了文本的实用性，并且在欺骗隐私分类器的任务上优于现有方法。

Jun, 2024

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022