使用远程监督对文本匿名化模型进行引导
该研究提出了一种利用未标记数据进行自动去识别的方法,采用一种特殊的训练模型来识别红 acted 个人文档中的个人信息,并在保护个人信息的前提下最小化正确识别文档的难度,此方法在去除标示实体的同时更彻底地去识别文档,相较于其他无人监督的方法性能更优。
Oct, 2022
本研究探讨使用知识图谱为预训练语言模型提供结构化知识的方法,提出并实现了两种利用知识图谱进行自监督训练的任务,并通过掩盖文本中的实体并利用实体关系知识进行训练,通过实验验证了该方法的有效性。
Apr, 2020
本文提出了一种利用填空式提示来生成标签信号以进行弱监督文本分类的方法,并使用潜变量模型来学习将生成的单词与预定义类别相关联的单词分布学习器和文档分类器,以实现无需标注数据。通过在三个数据集上的评估,表明我们的方法可以比基线方法提高 2%,4%和 3%。
May, 2022
本文针对现代深度学习神经网络模型需要大量手动标注数据以及从大量文本数据中构建领域特定知识图谱的困难问题,提出一个将知识图谱自适应和重新学习应用于不需要手动注释训练数据的领域适应性构建的综合框架,并引入了一种新的迭代训练策略来促进领域特定命名实体和三元组的发现和抽取,实验结果表明,该框架可以有效执行领域适应和构建知识图谱的任务。
Nov, 2022
近期在隐私研究中,大型语言模型在推断真实世界在线文本中的个人数据方面已经达到接近人类水平的性能。在存在不断增长的模型能力的同时,现有的文本匿名化方法目前无法满足监管要求和对抗威胁。这引发了一个问题,即个人如何能够有效地在分享在线文本时保护自己的个人数据。本研究分两步回答这个问题:首先,我们提出了一个新的环境,在对抗性大型语言模型推理的情况下评估匿名化性能,从而在纠正以前的指标缺陷的同时,实现对匿名化性能的自然度量。然后,我们提出了基于大型语言模型的对抗性匿名化框架,利用大型语言模型的强大推理能力来指导我们的匿名化过程。在我们的实验评估中,我们展示了在真实世界和合成在线文本中,对抗性匿名化在结果效用和隐私方面均优于目前的工业级匿名化工具。
Feb, 2024
本文提出了一种 ClassKG 框架,使用图神经网络探索关键字图中的关键字之间的相关性,解决现有方法中关键字独立的问题,即忽略了它们之间的相关性,因此无法充分利用。该方法在长文本和短文本数据集上进行广泛实验,证明其性能显著优于现有方法。
Oct, 2021
使用未标记的朗读语音数据作为辅助来源,我们提出了一个框架,通过自动注释和过滤数据来构建类似于关键词的数据集,利用多任务学习来提高模型的表示能力,从而显著提高了少样本关键词检测模型性能。
Aug, 2023
使用生成的大型语言模型生成的标签对监督文本分类模型进行微调,与使用人工标注的标签相比表现相当,是一种快速、高效和经济有效的构建监督文本分类器的方法。
Jun, 2024
本文介绍了一个新的文本匿名处理方法,该方法使用 fine-tuned 变压器语言模型实现了高质量的语言输出,同时避免了匿名化方法存在的隐私保护及文本保留方面的问题。
May, 2022
本文提出一种针对机器生成文档与人工撰写文档进行区分的无监督学习方法,通过利用高阶 n 元模型进行分类,并使用疑似标注文档来训练分类器的集合,成功实现了对疑似机器生成文档的准确评估,并且该方法可适用于各种规模的大型语言模型。
Nov, 2021