使用预训练语言表示优化关系提取
本文介绍了利用预训练语言模型 GPT 进行远程监督关系抽取,通过 fine-tuning 在 NYT10 数据集上实现了更多种类关系的高准确率预测,AUC 分数达到了 0.422,并且在高召回率水平下表现尤为出色。
Jun, 2019
通过预训练的语言模型,我们提出了一种新颖的在上下文中进行少样本关系抽取的框架,该框架可以消除命名实体识别和人工注释文档的需要,并实现了与现有方法相比最先进的性能。
Oct, 2023
使用句法分析和预先训练的词嵌入技术,在缺乏任何形式监督的情况下,提取少量精确关系,用于注释更大的语料库,并在生物医学领域的四个数据集上通过微调预先训练的 BERT 模型进行关系抽取实验表明,与无监督关系提取的两个简单的基线相比,我们的方法显著优于两个简单的基线,即使不使用任何监督,也获得了三个数据集中的最先进结果之一;更重要的是,我们证明了使用噪声数据可以成功地对大型预先训练的语言模型进行微调,而不是依赖于黄金数据进行微调。
Nov, 2019
本文探讨了利用 GPT-3 和 Flan-T5 等大型语言模型来进行关系提取(RE)的问题,通过将关系线性化生成目标字符串的方法进行了序列到序列的任务处理,通过人工评估的方式,在不同程度的监督下评估了它们在标准 RE 任务中的表现,发现通过 GPT-3 进行的少量提示与现有完全监督模型大致相当,而使用 Chain-of-Thought 风格的解释进一步监督和微调后,该模型产生了最优结果。
May, 2023
该文介绍了基于句子的关系抽取问题,着重探讨了影响现有关系抽取模型性能的实体表示和噪声标签问题,并利用预训练语言模型提出了改进的基线模型,在 TACRED 数据集上取得了 F1 分数 74.6%,在 Re-TACRED 数据集上取得了 F1 分数 91.1%,证明预训练语言模型在该任务上具有高性能。
Feb, 2021
本研究提出了一种模型,结合了预训练的 BERT 语言模型和目标实体信息,来解决关系分类任务。通过定位目标实体和在预训练模型中传递信息,并整合两个实体的相应编码信息,我们在 SemEval-2010 任务 8 关系数据集上取得了显著的改进。
May, 2019
通过引入 AutoRE 模型和 RHF (Relation-Head-Facts) 的新型 RE 提取范式,结合 QLoRA (Parameters Efficient Fine Tuning) 算法构建了一个易于扩展的 DocRE 框架,在 RE-DocRED 数据集上展现了最佳性能,超过 dev 和 test 集合上分别为 TAG 10.03% 和 9.03% 的最新结果。
Mar, 2024
本篇论文提出了一种基于原始输入句子提取多粒度特征的新方法,该方法包含实体提及级别、片段级别和句子级别三种特征,并采用层次化建模方法,以解决自然语言处理中的关系提取问题,实验证明该模型性能优于甚至使用外部知识的现有最先进模型。
Apr, 2022
本文提出了一种基于神经元的端到端模型来联合提取实体和它们的关系,该模型不依赖于外部自然语言处理工具,而是集成了大量的预训练语言模型, 在三个领域的五个数据集上,我们的模型可以与最先进的性能相提并论,有时甚至具有更高的性能。
Dec, 2019
本文介绍了一种轻量级的基于注意力机制的模型 SpERT,通过对 BERT 嵌入进行实体识别和过滤,以及基于标记的上下文表示进行关系分类,结合单 BERT 传递的高效负样例抽取方法,在多个数据集上取得了高于先前工作最高达 2.6% F1-score 的性能表现。
Sep, 2019