使用远程监督对文本匿名化模型进行引导

May, 2022

使用远程监督对文本匿名化模型进行引导

Bootstrapping Text Anonymization Models with Distant Supervision

Anthi Papadopoulou, Pierre Lison, Lilja Øvrelid, Ildikó Pilán

TL;DR本文提出一种基于远程监督的方法，利用知识图谱自动标注出表示个人信息的文档，以训练文本匿名化模型，进而实现 k - 匿名。通过在 Wikipedia 等网站上提取的知识图谱，并利用 RoBERTa 模型进行评估，本方法显示出潜力，但也揭示了可能由于知识图谱存在噪声或不完整而引起的问题。

Abstract

We propose a novel method to bootstrap text anonymization models based on distant supervision. Instead of requiring manually labeled training data, the approach relies on a →

anonymization distant supervision knowledge graph text documents roberta-based model

发现论文，激发创造

无监督文本去识别化

该研究提出了一种利用未标记数据进行自动去识别的方法，采用一种特殊的训练模型来识别红 acted 个人文档中的个人信息，并在保护个人信息的前提下最小化正确识别文档的难度，此方法在去除标示实体的同时更彻底地去识别文档，相较于其他无人监督的方法性能更优。

Oct, 2022

通过图引导的表示学习利用结构化文本知识

本研究探讨使用知识图谱为预训练语言模型提供结构化知识的方法，提出并实现了两种利用知识图谱进行自监督训练的任务，并通过掩盖文本中的实体并利用实体关系知识进行训练，通过实验验证了该方法的有效性。

Apr, 2020

利用语言模型的监督信号进行弱监督文本分类

本文提出了一种利用填空式提示来生成标签信号以进行弱监督文本分类的方法，并使用潜变量模型来学习将生成的单词与预定义类别相关联的单词分布学习器和文档分类器，以实现无需标注数据。通过在三个数据集上的评估，表明我们的方法可以比基线方法提高 2％，4％和 3％。

May, 2022

基于远程监督迭代训练的粗到细的知识图谱领域适应

本文针对现代深度学习神经网络模型需要大量手动标注数据以及从大量文本数据中构建领域特定知识图谱的困难问题，提出一个将知识图谱自适应和重新学习应用于不需要手动注释训练数据的领域适应性构建的综合框架，并引入了一种新的迭代训练策略来促进领域特定命名实体和三元组的发现和抽取，实验结果表明，该框架可以有效执行领域适应和构建知识图谱的任务。

Nov, 2022

大型语言模型是高级匿名化工具

近期在隐私研究中，大型语言模型在推断真实世界在线文本中的个人数据方面已经达到接近人类水平的性能。在存在不断增长的模型能力的同时，现有的文本匿名化方法目前无法满足监管要求和对抗威胁。这引发了一个问题，即个人如何能够有效地在分享在线文本时保护自己的个人数据。本研究分两步回答这个问题：首先，我们提出了一个新的环境，在对抗性大型语言模型推理的情况下评估匿名化性能，从而在纠正以前的指标缺陷的同时，实现对匿名化性能的自然度量。然后，我们提出了基于大型语言模型的对抗性匿名化框架，利用大型语言模型的强大推理能力来指导我们的匿名化过程。在我们的实验评估中，我们展示了在真实世界和合成在线文本中，对抗性匿名化在结果效用和隐私方面均优于目前的工业级匿名化工具。

Feb, 2024

基于关键词图的弱监督文本分类

本文提出了一种 ClassKG 框架，使用图神经网络探索关键字图中的关键字之间的相关性，解决现有方法中关键字独立的问题，即忽略了它们之间的相关性，因此无法充分利用。该方法在长文本和短文本数据集上进行广泛实验，证明其性能显著优于现有方法。

Oct, 2021

借助辅助数据监督提高小型足迹的少样本关键词识别

使用未标记的朗读语音数据作为辅助来源，我们提出了一个框架，通过自动注释和过滤数据来构建类似于关键词的数据集，利用多任务学习来提高模型的表示能力，从而显著提高了少样本关键词检测模型性能。

Aug, 2023

自动注释中的知识蒸馏：由 LLM 生成的训练标签进行监督文本分类

使用生成的大型语言模型生成的标签对监督文本分类模型进行微调，与使用人工标注的标签相比表现相当，是一种快速、高效和经济有效的构建监督文本分类器的方法。

Jun, 2024

单词级差分隐私的限制

本文介绍了一个新的文本匿名处理方法，该方法使用 fine-tuned 变压器语言模型实现了高质量的语言输出，同时避免了匿名化方法存在的隐私保护及文本保留方面的问题。

May, 2022

无监督和分布式检测机器生成文本

本文提出一种针对机器生成文档与人工撰写文档进行区分的无监督学习方法，通过利用高阶 n 元模型进行分类，并使用疑似标注文档来训练分类器的集合，成功实现了对疑似机器生成文档的准确评估，并且该方法可适用于各种规模的大型语言模型。

Nov, 2021