通过异质部分标签嵌入的实体类型标注噪声降噪

KDDFeb, 2016

通过异质部分标签嵌入的实体类型标注噪声降噪

Label Noise Reduction in Entity Typing by Heterogeneous Partial-Label Embedding

Xiang Ren, Wenqi He, Meng Qu, Clare R. Voss, Heng Ji...

TL;DR使用 PLE 的低维度空间嵌入实体提及、文本特征和实体类型，以自动消除知识库标签中的错误，并为每个训练实例估计其类型路径。

Abstract

Current systems of fine-grained entity typing use distant supervision in conjunction with existing knowledge bases to assign categories (type labels) to entity mentions. However, the type labels so obtained from

fine-grained entity typing label noise reduction ple embedding knowledge bases

发现论文，激发创造

神经实体类型和关系抽取的噪声缓解

本文探讨了信息抽取模型中两种不同类型的噪声：来自远程监督和来自管道输入特征的噪声，并针对实体类型和关系提取等任务提出了使用神经网络模型的多实例多标签学习算法，以及改进噪声实体类型预测和关系提取间的整合方法，通过实验证明概率预测比离散预测更加鲁棒，并联合训练两个任务的效果最好。

Dec, 2016

基于标签推理的细粒度实体类型判定

该论文提出了 Label Reasoning Network (LRN)，通过发现和利用数据中隐含的外在和内在依赖关系知识，从而顺序推理细粒度实体标签，有效地建模、学习和推理复杂标签依赖关系，从而解决实体类型分类的挑战。实验结果表明，LRN 在标准超细粒度实体类型分类基准上实现了最先进的性能，并且可以有效地解决长尾标签问题。

Sep, 2021

基于路径注意力机制的细粒度实体类型识别神经模型

该研究提出了一种名为 PAN 的端到端实体类型模型，通过利用类型的层次结构来学习噪声鲁棒性，该模型有效避免了在训练过程中的标签噪声和错误传播问题。

Oct, 2017

用紧凑的潜在空间聚类改进远程监督的实体类型识别

本研究针对远程监督 Fine-grained 实体类型标注（FET）中存在的错误实体类型标签问题，提出了 Compact Latent Space Clustering（CLSC）方法来进行正则化，并借助标签传播推断出嘈杂数据，在嵌入空间中鼓励具有相似语义的实体提供更好的分类性能，且实验证明此方法在标准基准上普遍优于最先进的远程监督实体类型标注系统。

Apr, 2019

具有噪声鲁棒性和语言模型增强的远程监督命名实体识别

本文研究如何通过使用自动化匹配原始文本中实体提及与知识库中实体类型来获得的远距离标注数据来训练命名实体识别（NER）模型，提出了一种噪声鲁棒的学习方案和自训练方法，通过预训练语言模型创建的上下文增量来改善 NER 模型的泛化能力，在三个基准数据集上，我们的方法均获得了优越的性能，显著优于现有的远程监督 NER 模型。

Sep, 2021

基于大规模标签解释学习的少样本命名实体识别

利用自然语言描述学习实体类型解释，通过大规模扩展实体类型和描述，可以显著提高零样本和少样本命名实体识别。

Mar, 2024

领域无关实体链接的细粒度实体类型划分

该论文介绍了一种可以构建鲁棒实体链接模型的方法，该方法将注意力放在建立细粒度实体属性的模型上，具有更好的泛化性能，使用维基百科类别的大型库存来远程标记数据并训练实体类型模型，使用软类型预测将提及链接到最相似的候选实体上。

Sep, 2019

命名实体识别的分类扩展

本研究提出了一种称为 “部分标签模型（Partial Label Model）” 的新方法，该方法可以使用部分有标注的数据集来训练 NER 模型，以更节省成本地扩展分类法，实验表明，该方法在新分类法设置下的表现显著优于其他方法，并在额外实体类型数据有限的情况下表现出更加节省成本。

May, 2023

去噪增强远程监督的超细实体类型识别

本文提出一种新颖的超细实体类型模型，其具有去噪能力，通过建立一个噪声模型对输入的上下文和实体类型标签进行估计，从输入中减去估计噪声以恢复更可靠的标签，并采用双编码器结构训练去噪数据，噪声模型和实体类型模型迭代训练，以提高彼此的性能，在 Ultra-Fine 实体类型数据集以及 OntoNotes 数据集上表现显著优于其他基线方法。

Oct, 2022

利用来自掩蔽语言模型的弱监督进行超细实体类型识别

本文提出了使用 BERT 遮盖语言模型 (Masked Language Model) 获得超细粒度实体类型的训练数据，并构建一个输入使其产生预测上下文相关的超类词表中的概念，其可用作类型标签。在实验结果中表明，通过这些自动生成的标签，超细粒度实体类型模型的性能大大提高。同时，我们还展示了这种方法可以用于改进传统的细粒度实体类型。

Jun, 2021