使用预训练 Transformer 一次性提取多个关系
使用 TACRED 及 SemEval 2010 Task 8 数据集,TRE 通过使用预先训练的深度语言表示模型以及自注意力深度学习模型,从文本语料库中自动学习隐式语言特征并显著提高样本效率,从而实现了关系提取任务的新的最优结果。
Jun, 2019
使用句法分析和预先训练的词嵌入技术,在缺乏任何形式监督的情况下,提取少量精确关系,用于注释更大的语料库,并在生物医学领域的四个数据集上通过微调预先训练的 BERT 模型进行关系抽取实验表明,与无监督关系提取的两个简单的基线相比,我们的方法显著优于两个简单的基线,即使不使用任何监督,也获得了三个数据集中的最先进结果之一;更重要的是,我们证明了使用噪声数据可以成功地对大型预先训练的语言模型进行微调,而不是依赖于黄金数据进行微调。
Nov, 2019
本研究提出了一种简单的流水线方法来进行实体和关系抽取,并在标准基准测试中确立了新的最佳结果,通过对实体和关系进行不同的上下文表示,融合实体信息来提高性能,同时在全局上下文中引入信息以提高准确性。
Oct, 2020
本文介绍了一种新的预训练目标,用于在多个输入句子之间建模段落级别的语义,并证明了该预训练技术在多候选推理任务的联合建模和交叉编码器场景下优于传统技术。
May, 2022
通过预训练的语言模型,我们提出了一种新颖的在上下文中进行少样本关系抽取的框架,该框架可以消除命名实体识别和人工注释文档的需要,并实现了与现有方法相比最先进的性能。
Oct, 2023
提出一种使用自我注意力编码器模型同时预测文档中所有提及对之间关系的关系抽取方法,通过聚合提及对以形成实体对表示进行多实例学习,并增加弱标签数据来适应无提及级别注释的设置,实验证明该方法在生物文本信息抽取任务中达到了最先进性能。
Feb, 2018
本文介绍了一种轻量级的基于注意力机制的模型 SpERT,通过对 BERT 嵌入进行实体识别和过滤,以及基于标记的上下文表示进行关系分类,结合单 BERT 传递的高效负样例抽取方法,在多个数据集上取得了高于先前工作最高达 2.6% F1-score 的性能表现。
Sep, 2019
本篇论文提出了一种基于原始输入句子提取多粒度特征的新方法,该方法包含实体提及级别、片段级别和句子级别三种特征,并采用层次化建模方法,以解决自然语言处理中的关系提取问题,实验证明该模型性能优于甚至使用外部知识的现有最先进模型。
Apr, 2022
本文提出了两种使用编码器 - 解码器结构的方法来共同提取关系元组和实体,其中第一种方法采用关系元组表示方案,使解码器能够像机器翻译模型一样逐个单词生成,并仍然找到具有不同长度和重叠实体的所有元组,而第二种方法采用指针网络解码方法,每个时间步长生成整个元组。实验结果表明,本文提出的方法优于先前的工作,并实现了显着更高的 F1 分数。
Nov, 2019
本文提出了一个联合模型,用于从文件中提取实体级别的关系。该模型在实体级别上操作,采用多任务方法,并通过多实例学习以及多级表示技术聚集相关信号,旨在提取文档中的关系。研究结果表明,该模型在 DocRED 数据集上获得了最优的实体级别关系提取结果。同时,实验结果表明,与特定任务学习相比,联合方法在参数共享和训练步骤方面更加高效。
Feb, 2021