领域私有转换器

May, 2023

Domain Private Transformers

Anmol Kabra, Ethan R. Elenberg

TL;DR本篇论文提出了一种新颖的方法 —— 领域隐私，用以衡量条件语言模型在不同域之间泄露的可能性，并根据基于标记级别的域分类开发策略函数和一种高效的微调方法以提高已训练模型的域隐私；实验表明，我们的方法具有与不同 ially 私有语言模型的方法相当的弹性。

Abstract

Large, general purpose language models have demonstrated impressive performance across many different conversational domains. While multi-domain language models achieve low overall perplexity, their outputs are not guaranteed to stay within the domain of a given input prompt. This pape

general-purpose language models multi-domain domain privacy fine-tuning method membership inference attacks

发现论文，激发创造

隐私保护模型用于法律自然语言处理

本文阐述了利用不同隐私保护训练配置扩大自监督学习 Transformer 模型的规模，提供 Domain Adaptation 和 Privacy Protection，实现在法律领域 NLP 下的无监督超大规模训练的技术，这在之前尚未得到解决。

Nov, 2022

差分隐私语言模型受益于公共预训练

通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型，提高私有领域的模型性能，让其成为可能。

Sep, 2020

大型语言模型可以作为良好的隐私保护学习者

利用特定域数据对大型语言模型进行微调时，存在个人身份信息敏感度的问题。为了解决这一挑战，我们引入了隐私保护语言模型（PPLM），通过有效注入特定领域知识来保护数据隐私。我们的工作提供了模型设计理论分析，并详细介绍了诸如语料库整理、基于惩罚性失真的训练损失和基于指令的微调等技术。在各种数据集和场景下的广泛实验证实了我们方法的有效性。特别是，正负样本指令微调成为一种有潜力的方法，可以在增强模型知识的同时保护私人数据。我们的工作突显了大型语言模型作为强大隐私保护学习器的潜力。

Oct, 2023

安全数据共享的差分隐私语言模型

使用全局差分隐私的方法，通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私，并通过新的匹配损失设计自然语言提示，得出高质量的文本数据集，这些数据集不仅不会泄露原始数据的信息，而且还适合训练用于分析真实世界数据的模型，同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。

Oct, 2022

语言模型维护隐私的含义是什么？

本文讨论保护自然语言隐私的技术是否足够广泛，提出现有数据保护方法不能为语言模型提供通用且有意义的隐私保护，因此应基于明确为公共使用的文本数据对语言模型进行训练。

Feb, 2022

大语言模型时代的隐私保护：你所写即你所是

本文调查了一系列流行模型中预训练表示所编码的个人信息的程度，并展示了模型越复杂和数据越多，可能出现数据泄露的正相关性。作者对一种大型多语言数据集上的情感分析特征进行了广泛覆盖的比较和评估，结果表明，隐私保护方法的使用非常重要。作者还发现高度隐私保护的技术（如差分隐私）可能会对模型效用产生严重影响，可以使用混合或度量隐私方法来解决。

Apr, 2022

基于有限领域数据的廉价推理专用语言模型

大语言模型在应用到缺乏大量推理预算和大量领域内训练集的任务中具有多样性，但具有挑战性。本研究规范了这些约束，并区分了四个重要变量：预训练预算（用于在目标领域之前进行训练）、专业预算（用于在目标领域之后进行训练）、推理预算和领域内训练集的大小。在这些设置中，我们比较了机器学习文献中的不同方法。受到推理成本的限制，我们找到了比训练非常大的基础变压器模型更好的替代方案。特别是，我们发现超网络和专家混合模型对于大的预训练预算具有更好的困惑度，而在重要抽样数据集上训练的小型模型对于大的专业预算是有吸引力的。

Feb, 2024

隐私规范化：语言模型中的联合隐私和效用优化

本文介绍了两种隐私保护正则化方法，以实现公用性和隐私的联合优化，通过广泛评估，展示了这些方法的优势，例如略有优越的公用性 - 隐私权衡、更快的训练以及确保少数群体的平等待遇。

Mar, 2021

QAGAN：学习领域不变的语言特征的对抗方法

探索对抗训练方法以学习领域不变特征，从而使语言模型可以对域外数据集进行良好的推广。我们还审查了各种其他方法来提高我们的模型性能，包括通过改写句子实现数据增强、将回答跨度预测的结尾词映射到开始词上以及精心设计的退火函数。我们的初步结果表明，在结合这些方法的情况下，与基线相比，在域外验证数据集上我们能够实现 EM 分数 15.2% 的提高和 F1 分数 5.6% 的提高。

Jun, 2022

语言模型如何受指导以保护个人信息？

大规模多模式语言模型已在许多应用中证明具有变革性。然而，这些模型已被证明会记忆和泄漏预训练数据，引发用户隐私和信息安全方面的严重关切。我们介绍了 PrivQA - 一个多模式基准，用于评估在模拟场景中指示模型保护特定类别个人信息时，此隐私 / 效用权衡。我们还提出了一种通过迭代自我调节响应的技术，在很大程度上提高了隐私。通过一系列红队实验，我们发现对手可以通过简单的越狱方法绕过这些保护，使用文本和 / 或图像输入。我们相信 PrivQA 有潜力支持开发具有改进隐私保护和对抗鲁棒性的新模型。我们在指定的网址上发布了整个 PrivQA 数据集。

Oct, 2023