HistRED:历史文档级关系抽取数据集
本文介绍 DocRED 数据集,该数据集为文档级别中关系抽取 (Relation Extraction) 提供了一个新的方法,并提供了大规模的远程监督数据,以满足超级 / 弱监督训练需求。同时我们实验了目前最先进的方法,结果表明文档级别中关系抽取仍需要进一步的研究。
Jun, 2019
本文提出了一个多实体类型和多关系对的文献级生物医学关系抽取数据集 BioRED,包括新发现和先前已知的信息,旨在评估现有状态下的自动化算法,为更准确、高效和稳健的生物医学关系系统的开发奠定基础。
Apr, 2022
研究论文介绍了在混合语言场景中进行关系抽取的新任务 MixRE,并构建了混合语言数据集 MixRED,评估了现有的有监督模型和大型语言模型对于这一新任务的表现,并揭示了影响模型性能的因素以及提高模型性能的有望方向。
Mar, 2024
将英文资源应用于日语的文档级关系抽取任务,构建了一个通过将英文数据集转化为日语的数据集,并将模型预测结果用于人工标注,减少了大约 50%的人工编辑步骤。该研究评估了现有的 DocRE 模型在所构建数据集上的性能,并揭示了日语和跨语言 DocRE 的挑战。
Apr, 2024
本文针对 DocRED 数据集中占主导地位的漏报问题进行了研究,并通过重新注释数据集来修复该问题,重新命名为 Re-DocRED 数据集,同时实验结果表明使用 Re-DocRED 数据集进行训练和评估可以获得 13 个 F1 分数的性能提升。
May, 2022
本文提出了一个新的金融实体关系抽取数据集 FinRED,并在此数据集上对各种最先进的关系抽取模型进行试验,结果显示当前的模型在金融领域的性能较差,需要更好的模型。
Jun, 2023
通过 EnzChemRED 数据集,利用大型语言模型等自然语言处理方法可以显著提高识别文本中的蛋白质和化学品提及以及提取它们参与的化学转化的能力,该数据集位于 PubMed 摘要中,旨在支持酶的修饰。
Apr, 2024
本文提供了两个新的多语言关系抽取数据集,其中 SRED$^{m FM}$ 有覆盖 18 种语言、400 种关系类型和 13 种实体类型的 4 千万三元组实例,而 RED$^{m FM}$ 则是一个人工修订的数据集,可以用于多语言关系抽取系统的评估。我们还使用第一款端到端的多语言 RE 模型 mREBEL,可以在多种语言中提取实体类型等三元组,请在此 https URL 获取我们的资源和模型检查点。
Jun, 2023
本篇研究旨在建立、评估韩字理解的语言模型,为此发布了包含了年代归属、主题分类、命名实体识别和概要检索任务的 Hanja Understanding Evaluation 数据集。同时,还在朝鲜王朝的官方纪事 Annals 和 Royal Secretariats 的两个重要文献语料库上训练了 BERT 模型,并将它与几个基线模型进行了比较,发现训练在这两个文献上的模型具有显著改进。此外,还在历史学研究中尚未被广泛研究的 DRRI 数据集上进行了零样本实验。
Oct, 2022
本论文提出基于实体的文档上下文过滤来构建输入并基于跨路径实体关系注意力的交叉文档关系提取模型,与现有方法比较,在 CodRED 数据集上取得至少 10% 的 F1 值的提升,从而展示其在跨文档关系提取中的有效性。
Oct, 2022