May, 2022

使用远程监督对文本匿名化模型进行引导

TL;DR本文提出一种基于远程监督的方法,利用知识图谱自动标注出表示个人信息的文档,以训练文本匿名化模型,进而实现 k - 匿名。通过在 Wikipedia 等网站上提取的知识图谱,并利用 RoBERTa 模型进行评估,本方法显示出潜力,但也揭示了可能由于知识图谱存在噪声或不完整而引起的问题。