MixRED:一种混合语境关系抽取数据集
介绍了 MultiTACRED 数据集及其在跨语言关系抽取上的应用,证明了机器翻译在此任务上的可行性以及单 / 多语言模型的性能优势,同时指出了翻译和标注错误对数据集质量和模型性能的影响。
May, 2023
本文提出了基于双语词向量映射的方法,将一个好的源语言神经网络关系抽取模型直接应用于目标语言,从而实现了跨语言关系抽取模型的转移。实验证明该方法在多种目标语言中表现出较好的性能。
Oct, 2019
本文提供了两个新的多语言关系抽取数据集,其中 SRED$^{m FM}$ 有覆盖 18 种语言、400 种关系类型和 13 种实体类型的 4 千万三元组实例,而 RED$^{m FM}$ 则是一个人工修订的数据集,可以用于多语言关系抽取系统的评估。我们还使用第一款端到端的多语言 RE 模型 mREBEL,可以在多种语言中提取实体类型等三元组,请在此 https URL 获取我们的资源和模型检查点。
Jun, 2023
本研究提出了多语言关系抽取(RE)数据集 Multi-CrossRE,涵盖了英语以外的 26 种语言和六种文本领域,并运用基线模型验证其高质量的机器翻译结果。
May, 2023
将英文资源应用于日语的文档级关系抽取任务,构建了一个通过将英文数据集转化为日语的数据集,并将模型预测结果用于人工标注,减少了大约 50%的人工编辑步骤。该研究评估了现有的 DocRE 模型在所构建数据集上的性能,并揭示了日语和跨语言 DocRE 的挑战。
Apr, 2024
该研究构建了十个低资源语言的关系抽取数据集,并利用语言困惑度对翻译数据进行过滤,最后在这些数据集上评估了开源大型语言模型的性能。
Jun, 2024
通过基于多语言 BERT 的基准模型和新的多语言预训练方式,结合远程监督数据,建立两种跨语言关系分类模型,以建立知识库和为问答提供有用信息。研究引入了名为 RELX 的英语、法语、德语、西班牙语和土耳其语的跨语言关系分类基准数据集以及通过远程监督从维基百科和维基数据收集的包含数百万个句子关系的 RELX-Distant 数据集。
Oct, 2020
通过引入 AutoRE 模型和 RHF (Relation-Head-Facts) 的新型 RE 提取范式,结合 QLoRA (Parameters Efficient Fine Tuning) 算法构建了一个易于扩展的 DocRE 框架,在 RE-DocRED 数据集上展现了最佳性能,超过 dev 和 test 集合上分别为 TAG 10.03% 和 9.03% 的最新结果。
Mar, 2024
本文介绍了第一个人工注释的基于对话的关系抽取(RE)数据集 DialogRE,用于支持在对话中预测两个参数之间的关系,尤其是涉及多个句子的跨句子 RE 任务,并基于分析指出演讲者相关信息在该任务中发挥了关键作用。在提出一个新的评估指标以评估在会话环境中进行 RE 方法的性能之后,本文研究了几种常用的 RE 方法在 DialogRE 数据集上的表现,并通过实验证明,最佳表现模型的扩展可以在标准和会话环境的评估设置中都取得收益。
Apr, 2020
本文介绍 DocRED 数据集,该数据集为文档级别中关系抽取 (Relation Extraction) 提供了一个新的方法,并提供了大规模的远程监督数据,以满足超级 / 弱监督训练需求。同时我们实验了目前最先进的方法,结果表明文档级别中关系抽取仍需要进一步的研究。
Jun, 2019