基于 Transformer 预训练的跨度联合实体和关系抽取
该研究论文介绍了一种基于跨度的多任务实体 - 关系联合提取模型,通过多任务学习和位置信息的引入,有效地减轻了负样本对模型性能的负面影响,同时在广泛应用的公共数据集 CoNLL04、SciERC 和 ADE 上取得了令人称赞的 F1 得分。
Sep, 2023
我们提出了一种新的预训练模型,利用基于维基百科的知识图谱实现了在实体和关系上的双重表示,以及利用跨度模块进行有效编码,相较于现有模型使用更少的参数。实验结果表明,相比 RoBERTa 模型,我们模型在信息抽取任务上表现更好,尤其在监督学习任务中达到了很高的竞争水平。
Aug, 2022
使用句法分析和预先训练的词嵌入技术,在缺乏任何形式监督的情况下,提取少量精确关系,用于注释更大的语料库,并在生物医学领域的四个数据集上通过微调预先训练的 BERT 模型进行关系抽取实验表明,与无监督关系提取的两个简单的基线相比,我们的方法显著优于两个简单的基线,即使不使用任何监督,也获得了三个数据集中的最先进结果之一;更重要的是,我们证明了使用噪声数据可以成功地对大型预先训练的语言模型进行微调,而不是依赖于黄金数据进行微调。
Nov, 2019
本文利用 BERT 作为特征提取层并引入语义增强的预训练任务,并使用大规模数据集进行实体识别预训练,提出软标签嵌入以有效传递实体识别和关系提取之间的信息,从而增强多头选择模型的信息提取能力,最终在测试集上获得了 0.892 的 F1 分数。
Aug, 2019
使用 TACRED 及 SemEval 2010 Task 8 数据集,TRE 通过使用预先训练的深度语言表示模型以及自注意力深度学习模型,从文本语料库中自动学习隐式语言特征并显著提高样本效率,从而实现了关系提取任务的新的最优结果。
Jun, 2019
该研究提出了一种新的基于 SpanBERT 和图卷积网络的关系抽取模型 (DG-SpanBERT), 具有学习从大规模语料库中获取词汇特征和捕捉实体之间长距离关系的优点,在 TACRED 数据集上的实验结果表明其性能优于现有基于依存关系和序列的模型,达到了最先进的水平。
Apr, 2020
该研究提出了一种基于 BERT 语言模型和聚焦注意力机制的联合实体和关系抽取模型,通过动态范围注意机制,提高了共享参数层的特征表示能力,实验结果表明,该方法在冠状动脉造影文本上的名词实体识别和关系分类任务的 F1 得分分别达到 96.89% 和 88.51%,优于现有技术水平。
Aug, 2019
本论文提出了 SpanBERT 预训练方法,扩展了 BERT 的掩蔽方式和训练方式,使其在跨度选择和指代消解等任务中表现出比 BERT 和基线更优秀的性能,包括在 SQuAD、OntoNotes 和 TACRED 等各种基准测试上都取得了更好的结果。
Jul, 2019
本研究提出 DSpERT(Deep Span Encoder Representations from Transformers),使用预训练语言模型的权重初始化,利用 Transformer 架构和检索式编码在命名实体识别任务上实现了高性能,特别是在长跨度实体和嵌套结构方面表现出色。
Oct, 2022
我们提出了一种新的方法,将无结构文本中的实体和关系提取作为条件序列生成问题,采用基于跨度的方法生成线性化图,其中节点表示文本跨度,边表示关系三元组。通过跨度表示,我们的模型可以捕捉实体和关系的结构特征和边界,并通过指向机制将生成的输出与原始文本进行关联。基准数据集上的评估验证了我们方法的有效性,展示了竞争性的结果。
Jan, 2024