利用正例和无标签学习提高神经关系提取

AAAINov, 2019

利用正例和无标签学习提高神经关系提取

Improving Neural Relation Extraction with Positive and Unlabeled Learning

Zhengqiu He, Wenliang Chen, Yuyi Wang, Wei zhang, Guanchun Wang...

TL;DR该论文提出了一种新颖的方法，使用强化学习来决定句子是否与给定关系相关，借助正 / 无标签学习，该方法全面利用未标记实例，并提出了两种新的正 / 无标签包表示形式，将这两种表示形式以合适的方式组合来进行包级别的预测。实验结果显示，与几个竞争性基线相比，该新方法显着而一致地提高了性能。

Abstract

We present a novel approach to improve the performance of distant supervision relation extraction with Positive and Unlabeled (PU) Learning. This approach first applies →

distant supervision relation extraction positive and unlabeled learning reinforcement learning bag-level prediction

发现论文，激发创造

使用正 - 未标记学习进行远程监督的命名实体识别

提出一种新的 PU 学习算法，用于使用未标记的数据和命名实体词典执行命名实体识别任务，该方法不需要词典标记每个句子中的所有实体，也不需要词典标记构成实体的所有单词。通过对四个公共 NER 数据集的实证研究，证明了该方法的有效性。

Jun, 2019

一个统一的正 - 无标签学习框架，用于具有不同水平标记的文档级关系提取

本文首次使用正样本 - 未标记（PU）学习在文档级别关系抽取任务上，并提出了一种统一的 PU 框架 - Shift and Squared Ranking Loss Positive-Unlabeled（SSR-PU）学习。本方法考虑了数据集标记数据可能导致未标记数据的先验偏移问题，并使用了自适应阈值和平方排名损失，实验表明我们的方法相对于之前的基线在不完全标记的情况下提高了约 14 个 F1 分数，并且在完全监督和极端未标记设置下性能优于现有的方法。

Oct, 2022

通过神经元正无标记学习实现文档集扩展的可扩展性评估和改进

本研究提出了一种将信息检索 (IR) 扩展为正无标记 (positive-unlabeled, PU) 学习的方法，即从正样本数据 (即查询文档) 和非标记数据 (IR 引擎返回的结果) 中学习二元分类器，然后应用于文本分类问题中，该方法在 PubMed 文摘的细粒度主题提取中表现有效。

Oct, 2019

重新审视远程监督关系抽取的负数据

本文提出了一种名为 ReRe 的管道方法，通过句子级别的关系检测和主谓对象提取来实现样本有效训练，将关系抽取问题转化为正无标记学习任务，缓解了负样本引起的误差问题，实验结果表明，该方法能够持续超越现有方法并且即使在学习大量的假阳性样本时仍保持良好的性能。

May, 2021

正界未标示对比学习

这篇论文研究并扩展了自监督预训练在受限标注数据上的应用，提出了一种新颖的 PU 学习目标正无标噪声对比估计（puNCE）以通过有限监督获得表示，实验证明 puNCE 在受限监督下持续优于现有无监督和监督对比基线。

Jun, 2022

对无先验正样本无监督学习的对比方法

我们提出了一种新的正未标化学习框架，通过预定义无关的表示学习来学习特征空间，然后采用伪标记技术将未标注样本进行分类，利用嵌入的集中性质。该方法在多个标准正未标化基准数据集上明显优于现有的方法，并且不需要先验知识或类先验的估计。值得注意的是，即使标注数据稀缺，我们的方法仍然有效，而大多数正未标化学习算法则表现不佳。我们还提供了简单的理论分析，解释了我们所提出算法的动机，并为我们的方法建立了泛化保证。

Feb, 2024

正负样本学习综述

该论文综述了 “PU learning”（从正面和未标记数据中学习）的现状，并提出了七个关键的研究问题，旨在探讨如何应对医学诊断和知识库完成等应用中自然产生的这种数据类型。

Nov, 2018

正例偏移情况下的正类和无标注数据学习

本文介绍了使用正样本和未标注样本进行 PU 学习的方法，即使正样本在数据分布中不具有代表性，也可以通过只固定负类分布来解决正偏差问题。通过将负 - 未标注学习与未标注 - 未标注学习相结合或利用递归风险估计方法，可以解决正偏差问题。然后，作者提出一种通用的方法来解决 PU 风险评估的过度配合问题。实验结果表明，无论数据集如何，这两种方法都是有效的。

Feb, 2020

基于正负未标注度量学习的文档级关系抽取框架

本文提出了一种基于 P3M 度量学习框架的文档级关系抽取方法，使用正向增强和混合方法进行正向无标签学习，改进了文档级关系抽取的 F1 分数。

Jun, 2023

正标 - 未标分类的元学习

我们提出了一种元学习方法，用于正负样本未标记分类，从而提高仅使用 PU 数据获得的二元分类器在未知目标任务中的性能。该方法使用包含正向、负向和未标记数据的相关任务，在使用 PU 数据调整模型之后，最小化了测试分类风险。通过使用神经网络将每个实例嵌入到任务特定空间中，我们以密度比率估计 PU 密度的形式估计了贝叶斯最优分类器，其解可作为闭式解求得。经验证明，该方法在一个合成数据集和三个真实数据集上表现优于现有方法。

Jun, 2024