基于正负未标注度量学习的文档级关系抽取框架
本文首次使用正样本 - 未标记(PU)学习在文档级别关系抽取任务上,并提出了一种统一的 PU 框架 - Shift and Squared Ranking Loss Positive-Unlabeled(SSR-PU)学习。本方法考虑了数据集标记数据可能导致未标记数据的先验偏移问题,并使用了自适应阈值和平方排名损失,实验表明我们的方法相对于之前的基线在不完全标记的情况下提高了约 14 个 F1 分数,并且在完全监督和极端未标记设置下性能优于现有的方法。
Oct, 2022
该论文提出了一种新颖的方法,使用强化学习来决定句子是否与给定关系相关,借助正 / 无标签学习,该方法全面利用未标记实例,并提出了两种新的正 / 无标签包表示形式,将这两种表示形式以合适的方式组合来进行包级别的预测。实验结果显示,与几个竞争性基线相比,该新方法显着而一致地提高了性能。
Nov, 2019
该论文提出了一种新的多标签丢失函数,该函数鼓励每个预定义类别与无类别之间的标签置信度得分具有大的边际,从而实现了捕获标签相关性和基于上下文的标签预测阈值。
May, 2022
本文提出了一种名为 ReRe 的管道方法,通过句子级别的关系检测和主谓对象提取来实现样本有效训练,将关系抽取问题转化为正无标记学习任务,缓解了负样本引起的误差问题,实验结果表明,该方法能够持续超越现有方法并且即使在学习大量的假阳性样本时仍保持良好的性能。
May, 2021
提出一种新的 PU 学习算法,用于使用未标记的数据和命名实体词典执行命名实体识别任务,该方法不需要词典标记每个句子中的所有实体,也不需要词典标记构成实体的所有单词。通过对四个公共 NER 数据集的实证研究,证明了该方法的有效性。
Jun, 2019
我们提出了基于强化学习的 RLAC 框架,通过结合强化学习的探索能力和监督学习的开发能力,解决了多标签正负样本学习问题,并在多个任务中进行实验证明了我们框架的泛化和有效性。
Jun, 2024
大规模嘈杂训练数据中的文档级关系抽取问题是一个具有挑战性的领域,本研究提出了一种集成可训练内存模块(Token Turing Machine)和嘈杂鲁棒性损失函数的新方法 TTM-RE,通过在 ReDocRED 基准数据集上进行广泛实验,实现了最先进的性能表现(F1 得分提高了 3% 以上),并在其他领域(如生物医学领域的 ChemDisGene 数据集)和高度未标记的情境下展现了 TTM-RE 的优越性.
Jun, 2024
本文提出了一种新的自适应重新采样自训练框架,采用精度和召回率对每个类别的伪标签进行重新采样,以增加整体召回率而不过多牺牲精度,并在文件级别和生物医学关系提取数据集上进行实验表明,所提出的自训练框架在数据集的不完全注释时比现有方法表现要好。
Jun, 2023
本文提出了一种名为 MetaSRE 的方法,通过生成质量评估对伪标签进行元学习来降低噪声,同时采用伪标签选择和利用方案,仅以自我训练的方式利用高质量伪标签逐步增加标记样本以提高鲁棒性和准确性。在两个公共数据集上的实验结果表明了所提出方法的有效性。
Oct, 2020
本研究提出了一种将信息检索 (IR) 扩展为正无标记 (positive-unlabeled, PU) 学习的方法,即从正样本数据 (即查询文档) 和非标记数据 (IR 引擎返回的结果) 中学习二元分类器,然后应用于文本分类问题中,该方法在 PubMed 文摘的细粒度主题提取中表现有效。
Oct, 2019