学习自然语言模型中的用户 - 实体差分隐私

Nov, 2022

学习自然语言模型中的用户 - 实体差分隐私

User-Entity Differential Privacy in Learning Natural Language Models

Phung Lai, NhatHai Phan, Tong Sun, Rajiv Jain, Franck Dernoncourt...

TL;DR本文提出了一种新颖的用户 - 实体差分隐私（UeDP）的概念，以同时为文本数据中的敏感实体和学习自然语言模型的数据所有者提供正式的隐私保护。为了保护 UeDP，我们开发了一种新算法 UeDP-Alg，该算法对用户和敏感实体采样过程进行紧密的敏感性边界优化，通过优化隐私损失和模型效用之间的平衡，证明了我们的 UeDP-Alg 在多个自然语言模型任务中比基准方法在相同隐私预算下的模型效用要好，使用基准数据集。

Abstract

In this paper, we introduce a novel concept of user-entity differential privacy (UeDP) to provide formal privacy protection simultaneously to both sensitive entities in textual data and data owners in learning natural language models (NLMs). To preserve UeDP, we developed a novel

user-entity differential privacy natural language models privacy protection algorithm sensitivity bound

发现论文，激发创造

用户级别差分隐私用于语言模型微调

对自然语言生成任务中使用大型语言模型进行用户级差分隐私保护的设计选择进行系统评估，重点研究两种实现用户级差分隐私保证的机制，即群体隐私和用户级 DP-SGD，包括数据选择策略和参数调优，以实现最佳的隐私 - 效用平衡。

Jun, 2024

差分隐私自然语言模型：最新进展与未来方向

该研究综述了近年来在自然语言处理（NLP）领域中，如何在保护敏感数据的隐私同时实现良好性能的关键挑战。为了保护数据隐私，差分隐私（DP）成为了隐私数据分析的有效技术。本文着重探讨了在 DP 深度学习模型中的自然语言处理 (DP-NLP) 的最新研究进展，并阐述了一些挑战和未来方向。

Jan, 2023

隐私保护 BERT 的自然语言理解

在自然语言理解和数据挖掘中，隐私保护仍然是一个关键的挑战。本文研究了对预先训练的语言模型应用局部差分隐私的隐私保护方法，并指出了这种方法在 BERT 细调中的实用性和隐私性的影响，同时提出了隐私适应性的语言模型预训练方法，可以显著提高 BERT 的实用性，并保持相同水平的隐私保护。本文实验和发现为未来探索隐私保护的自然语言理解提供了奠基。

Apr, 2021

自然语言处理中的差分隐私：迄今为止的故事

本文总结了隐私增强技术中差分隐私对自然语言处理中的隐私问题的影响和应用，以及现有研究的探讨和下一步的研究方向。

Aug, 2022

BERT 模型的差分隐私和联邦学习基准测试

本文研究了将自然语言处理技术应用于用语言集合进行抑郁症等疾病的诊断中，并探讨了应用差分隐私机制对 BERT、ALBERT、RoBERTa 和 DistilBERT 等语言模型进行中央化和联邦学习时的效果，并提供了开源实现。

Jun, 2021

差分隐私语言模型受益于公共预训练

通过微调基于公共语料库的模型来实现高质量和隐私保护的语言模型，提高私有领域的模型性能，让其成为可能。

Sep, 2020

隐私规范化：语言模型中的联合隐私和效用优化

本文介绍了两种隐私保护正则化方法，以实现公用性和隐私的联合优化，通过广泛评估，展示了这些方法的优势，例如略有优越的公用性 - 隐私权衡、更快的训练以及确保少数群体的平等待遇。

Mar, 2021

安全数据共享的差分隐私语言模型

使用全局差分隐私的方法，通过训练生成式语言模型并从中采样数据来保护数据分享者的隐私，并通过新的匹配损失设计自然语言提示，得出高质量的文本数据集，这些数据集不仅不会泄露原始数据的信息，而且还适合训练用于分析真实世界数据的模型，同样证明基于私有合成数据训练分类器的性能优于直接基于真实数据使用 DP-SGD 进行训练。

Oct, 2022

混合专家模型的差分隐私训练

本研究调查了差分隐私 (Differential Privacy) 在自然语言处理领域中混合专家模型 (Mixture of Experts models) 训练中的整合。通过对大规模语言模型 (Large Language Models) 在数十亿参数上进行训练，利用海量数据集，使其具备了强大的语言能力和新兴的能力，但这一增长带来了重大的计算和隐私问题。我们的研究通过探索具备计算效率的 MoE 模型及 DP 的应用来解决这些问题。我们首次尝试在 DP 的约束下训练 MoE 模型，解决了其架构以及 DP 整合的复杂性所带来的独特挑战。我们的初步实验研究表明，MoE 模型可以通过 DP 有效训练，并与非隐私对照组有竞争力的性能。本次研究旨在为隐私保护的 MoE 模型领域提供有价值的洞察力，为该领域进一步的研究奠定基础，并为未来的发展提供引导。

Feb, 2024

文档嵌入的句子级隐私保护

本文介绍了一种名为 SentDP 的技术，它采用纯局部差分隐私方法，对单个用户文档进行句子级别的学习。这种方法可以用于情感分析和主题分类等下游任务，并且优于像 Metric DP 这样具有较低隐私保障的基准方法。

May, 2022