dpUGC: 学习用户生成内容的差分隐私表示

Mar, 2019

dpUGC: 学习用户生成内容的差分隐私表示

dpUGC: Learn Differentially Private Representation for User Generated Contents

Xuan-Son Vu, Son N. Tran, Lili Jiang

TL;DR本文提出了一种简单而有效的广义方法来将差分隐私应用于文本表示（即字嵌入）。基于该方法，我们提出了一种个人化的差分隐私字嵌入模型的用户级方法。所提出的方法保护了单个用户的隐私，尤其是在 UGC 数据共享方面提供了更好的隐私与数据效用的平衡。实验结果表明，这种训练好的嵌入模型可用于经典的文本分析任务。此外，所提出的学习差分隐私嵌入模型的方法既独立于框架又独立于数据，这有助于部署和共享。

Abstract

This paper firstly proposes a simple yet efficient generalized approach to apply differential privacy to text representation (i.e., word embeddin

differential privacy text representation word embedding user-level approach privacy and data utility

发现论文，激发创造

文本处理的广义差分隐私

本文提出了一种隐私保护机制，通过结合机器学习技术和文本处理技术，通过 “词袋” 表示的文档来建模文本文件的隐私。该机制在语义相似性度量方面满足隐私保护，从而在保护文本隐私信息的同时，保留足够的文本内容信息以便进行准确的内容分类任务。

Nov, 2018

面向差分隐私的文本表示

该研究开发了一个基于非受信任服务器设置的深度学习框架，包括三个模块：嵌入模块、随机化模块和分类器模块，并提出了一种新的本地差分隐私协议，以减小隐私参数 epsilon 对准确性的影响，提高随机化概率的灵活性。分析和实验表明，该框架可提供与非隐私框架和现有 LDP 协议相当甚至更好的性能，展示了该 LDP 协议的优势。

Jun, 2020

探索词嵌入技术在无监督文本用户生成内容归一化中的应用

提出了一种基于词的分布式表示（或词嵌入）的独立于语言和领域，完全无监督并可扩展的方法，用于从单词嵌入中学习规范化词典，以修正巴西葡萄牙语产品评论中的拼写错误和互联网俚语，相比当前可用的工具表现更好。

Apr, 2017

本地差别隐私图嵌入

本研究提出了一种名为 LDP-GE 的隐私保护图嵌入框架，通过局部差分隐私机制对节点数据进行模糊处理，并采用个性化 PageRank 作为节点表示的相似度度量，理论分析和实验证明 LDP-GE 在节点分类和链接预测任务中具有良好的隐私和效用平衡，并显著优于现有方法。

Oct, 2023

文档嵌入的句子级隐私保护

本文介绍了一种名为 SentDP 的技术，它采用纯局部差分隐私方法，对单个用户文档进行句子级别的学习。这种方法可以用于情感分析和主题分类等下游任务，并且优于像 Metric DP 这样具有较低隐私保障的基准方法。

May, 2022

学习自然语言模型中的用户 - 实体差分隐私

本文提出了一种新颖的用户 - 实体差分隐私（UeDP）的概念，以同时为文本数据中的敏感实体和学习自然语言模型的数据所有者提供正式的隐私保护。为了保护 UeDP，我们开发了一种新算法 UeDP-Alg，该算法对用户和敏感实体采样过程进行紧密的敏感性边界优化，通过优化隐私损失和模型效用之间的平衡，证明了我们的 UeDP-Alg 在多个自然语言模型任务中比基准方法在相同隐私预算下的模型效用要好，使用基准数据集。

Nov, 2022

我非我所写：隐私保护文本表示学习

该研究提出了一种文本数据双重隐私保护表示学习框架 (DPText), 可以实现高效保护用户隐私同时保证数据在情感分析和词性标注等任务中有较高实用价值。

Jul, 2019

使用用户级差分隐私学习生成图像嵌入

本文提出一种名为 DP-FedEmb 的联邦学习算法改进版本，用于训练大规模图像到嵌入特征提取器模型，包含虚拟客户端、部分聚合、私有本地微调和公共预训练等技术，能在相同的隐私预算下实现强隐私效用平衡，并且在 DigiFace、EMNIST、GLD 和 iNaturalist 数据集上展示了其卓越的效用性能。

Nov, 2022

面向个性化文本分类的增量用户嵌入建模

本研究提出一种增量用户嵌入建模方法，通过使用转换编码器将用户的最近交互历史的嵌入动态集成到累积历史向量中，从而实现个性化用户表示的学习，并成功将其应用于 Reddit 数据集的个性化多类分类任务中，并在评论历史编码和任务建模方面相应地实现 9% 和 30% 的相对提升。

Feb, 2022

单词级差分隐私的限制

本文介绍了一个新的文本匿名处理方法，该方法使用 fine-tuned 变压器语言模型实现了高质量的语言输出，同时避免了匿名化方法存在的隐私保护及文本保留方面的问题。

May, 2022