一种使用正则化马氏距离的差分隐私文本扰动方法

Oct, 2020

一种使用正则化马氏距离的差分隐私文本扰动方法

A Differentially Private Text Perturbation Method Using a Regularized Mahalanobis Metric

Zekun Xu, Abhinav Aggarwal, Oluwaseyi Feyisetan, Nathanael Teissier

TL;DR本文提出了一种用于文本扰动的新机制，它基于 Mahalanobis 度量的正则化变体，旨在平衡隐私和效用之间的权衡，以提高文本分析的隐私性。

Abstract

Balancing the privacy-utility tradeoff is a crucial requirement of many practical machine learning systems that deal with sensitive customer data. A popular approach for →

privacy machine learning text analysis noise injection mahalanobis metric

发现论文，激发创造

通过校准的多变量扰动实现隐私和效用的保留文本分析

本文使用 dx-privacy 和 word embedding，提出了一种隐私保护的文本扰动方法，并在大量数据集上进行了实证研究，结果表明在提供更好的隐私保证的同时，实用性有所提高（训练二元分类器的实用性可达到 < 2% 的损失）

Oct, 2019

将上下文引入到文本对文本的隐私化

该论文基于度量差分隐私技术，通过加入标定的噪声到单词的向量，并将这个嘈杂的向量通过最近邻搜索算法之后重新映射回离散词汇表，以实现文本到文本的保护。考虑到例如 ' 银行 ' 这样的歧义词，论文通过利用同义词的向量并结合歧义消解步骤来改进该机制，同时在隐私性和实用性方面进行评估。在 Words in Context 数据集上的单词意义消歧中，分类准确性提高了 6.05％。

Jun, 2023

基于高效用度度量的差分隐私文本技术

本研究提出了一种新的方法：Truncated Exponential Mechanism（TEM），允许使用任何距离度量来对语言表示进行数据隐私转化，并在对该方法进行实证比较时发现，在保障数据隐私的同时，能够提供更大的度量选择自由度和更好的实验效用。

Jul, 2021

通过语法指导文本到文本的隐私保护

本文旨在解决基于文本的隐私保护问题，提出了一种基于度量的差分隐私方法，利用词向量在向量空间的表示来添加噪声并完成替换。分析表明现有方法替换后语法上存在局限性，提出用候选选择解决替换方向的问题。实验结果表明，该方法在保证隐私的同时，提升了下游任务的表现。

Jun, 2023

词级度量差分隐私的比较分析：隐私与效用权衡的基准测试

采用差分隐私应用于自然语言处理技术近年来越来越重要，本研究对其在词级上加入噪音以实现差分隐私表示的不同方法进行了对比分析，并提供了隐私 - 效用权衡的深入分析和代码开源，从而为该研究领域提供了具体的前进步骤。

Apr, 2024

基于搭配的方法应对词级度量差分隐私挑战

应用差分隐私（DP）在自然语言处理中的研究必须区分其操作的句法级别，通常采用单词级或文档级的隐私化形式。最近，已经提出了几种基于 Word Embedding 空间的通用 DP 概念的单词级 Metric Differential Privacy 方法。然而，这些方法往往无法产生语义连贯的文本输出，只能通过基本的单词扰动组合实现在句子或文档级别的应用。本研究通过在单词和句子级别之间操作，即使用 Collocations，来解决这些挑战。通过扰动 n-grams 而不是单个单词，我们设计了一种方法，其中组合的隐私化输出具有更高的语义连贯性和可变长度。我们通过构建一个基于频繁出现的单词组的嵌入模型来实现这一目标，在该模型中，unigram 词与 bi - 和 trigram collocations 共存。我们在效用和隐私测试中评估了我们的方法，明确提出了超越单词级的标记化策略。

Jun, 2024

随机投影与加性噪声下的线性回归隐私和效用权衡

通过向数据集添加噪音或映射到低维子空间，使用条件互信息作为隐私保护度量，研究线性回归问题的差分隐私问题与非协同 SIMO 问题之间的联系。

Feb, 2019

利用分层表示来保护文本的隐私和效用

通过将词表示在双曲空间中以实现文本隐私保护，从而平衡了隐私和实用性之间的权衡，并针对作者归属问题进行了隐私试验，结果在可比的最差情况统计下获得了比欧几里得基线更高的隐私保护。

Oct, 2019

单词级差分隐私的限制

本文介绍了一个新的文本匿名处理方法，该方法使用 fine-tuned 变压器语言模型实现了高质量的语言输出，同时避免了匿名化方法存在的隐私保护及文本保留方面的问题。

May, 2022

信息管理中保持语义的失真用于个人隐私保护

本研究提出了一种以语义保持的方式扭曲文本以达到保护个人隐私的方法，实验表明该方法在数据隐私保护以及特定医疗信息管理上有着实际意义.

Jan, 2022