本文提出了一种新的跨领域关系抽取基准,并提供了元数据和多标签注释来帮助理解困难实例。作者通过在六个不同的文本领域上进行评估,评估了最先进的关系分类模型,发现跨领域关系抽取的困难性,为该方向的研究提供了新的数据集和启示。
Oct, 2022
本文对关系抽取数据集进行了全面的调查及研究任务定义及其应用。 研究发现,跨数据集和跨领域设置特别缺乏,并通过对两个数据集的科学关系分类进行了实证研究,发现注释存在实质性的差异,这解释了跨数据集评估中大幅度下降的原因。 最后,本研究呼吁在关系抽取中更加严格地报告设定和跨多个测试集进行评估。
Apr, 2022
本文介绍了基于句法结构和语义之间的亲缘关系,并据此进行中间预训练的关系抽取模型。通过使用相关句法关系进行预训练,不需要额外标注的情况下,该模型在六个跨域设置中有五个比基线模型表现更好。
May, 2023
本研究综述了关系抽取领域深度学习技术的现状,涵盖资源、分类、挑战和未来方向等方面,有望促进研究者共同探索真实生活中关系抽取系统的挑战。
Jun, 2023
本文针对目前关系提取领域中性能比较不可靠的问题,提出了一些无效比较的模式,并进行了实证研究来量化最常见错误对最终关系提取性能的影响,揭示了 BERT 和 span-level NER 的不足。本文强调在评估环节中应统一评估设置和数据集统计,并呼吁在 end-to-end 关系提取领域建立公认的评估标准。
Sep, 2020
本论文提出基于实体的文档上下文过滤来构建输入并基于跨路径实体关系注意力的交叉文档关系提取模型,与现有方法比较,在 CodRED 数据集上取得至少 10% 的 F1 值的提升,从而展示其在跨文档关系提取中的有效性。
本论文提出了一种数据丰富的方法,将多个医学相关的 Relation Extraction 数据集组合成一个大型数据集,并使用 BioREx 实现了关系提取任务,结果表明,BioREx 在各种关系任务中的表现都优于当前最好的执行方法。
本文通过三种不同的方案对低资源情况下关系抽取系统进行了全面研究,并创建了包含 8 个 RE 数据集的基准,示范了不同的方法与结合的影响,结果表明虽然基于提示的调整有助于低资源 RE,但在从跨句子上下文中提取多个关系三元组时仍有很大改善潜力,数据增强与自我训练可以较好地充实现有基准,并可带来很多性能提升,然而自我训练并不能始终实现低资源关系抽取的进步。
关系抽取(RE)是自然语言处理的基础任务,本文综述了四个阶段的 RE 方法,包括模式匹配、统计、神经网络和大型语言模型,并着重介绍了现代 RE 方法的远程监控和去噪预训练方法。
Jul, 2022
MORE 利用深度度量学习从标注数据中获取丰富的监督信号,并直接驱动神经模型学习语义关系表示,提高开放域关系抽取 OpenRE 的效率和性能。
Jun, 2022