基于匿名化的隐私和效用保护自然语言处理：假名化案例研究

Jun, 2023

基于匿名化的隐私和效用保护自然语言处理：假名化案例研究

Privacy- and Utility-Preserving NLP with Anonymized Data: A case study of Pseudonymization

Oleksandr Yermilov, Vipul Raheja, Artem Chernodub

TL;DR本研究探讨了不同的假名化技术在各种数据集和用于两种广泛使用的 NLP 任务（文本分类和摘要）的模型中的有效性，重点关注假名化技术对原始数据和模型质量之间差距的关键见解，并促进未来研究更高质量的匿名化技术，以更好地平衡数据保护和效用保护之间的权衡。其中，代码、假名化数据集和下游模型均可公开获取。

Abstract

This work investigates the effectiveness of different pseudonymization techniques, ranging from rule-based substitutions to using pre-trained large language models (LLMs), on a variety of datasets and models used