无监督开放式关系抽取
通过使用命名实体来诱导关系类型,我们可以在两个流行的数据集上优于现有方法。我们比较和评估了我们的发现与其他 URE 技术,并确定了 URE 中的重要特征。我们得出的结论是实体类型为 URE 提供了强有力的归纳偏差。
Apr, 2020
本文提出一种新方法用于从自由文本中提取关系,该方法通过从知识库中学习单词和实体关系的低维嵌入来联合使用文本和现有知识信息,实验证明该方法能够有效地利用大量 Freebase 数据 (4M 实体、23k 关系) 提供的额外信息来改善仅依赖于文本特征的现有方法。
Jul, 2013
通过收集全文的文字和知识库关系的共现统计数据,利用文本关系嵌入来处理远程监督下错误标记的问题,从而增强了现有的关系提取模型,在常用关系提取数据集上,将精度从 83.9%提高到 89.3%。
Apr, 2017
该文介绍了一种文本挖掘框架,利用 Named Entity Recognition 和 Relation Extraction 模型对医学文献和数字临床记录进行处理,取得优异的实验结果,并构建了一个生物医学知识图谱。系统使用 Spark NLP 库提供的生产级、可伸缩、硬件优化、可训练和可调整的 NLP 框架。
Dec, 2021
本篇论文提出了一种基于原始输入句子提取多粒度特征的新方法,该方法包含实体提及级别、片段级别和句子级别三种特征,并采用层次化建模方法,以解决自然语言处理中的关系提取问题,实验证明该模型性能优于甚至使用外部知识的现有最先进模型。
Apr, 2022
本文介绍了关系抽取(RE)的若干重要的监督、半监督和无监督技术,以及开放信息抽取(OIE)和远程监督的范例,最后描述了近期 RE 技术和未来研究方向。这篇综述对于领域的新手、研究人员和实践者都有用。
Dec, 2017
使用句法分析和预先训练的词嵌入技术,在缺乏任何形式监督的情况下,提取少量精确关系,用于注释更大的语料库,并在生物医学领域的四个数据集上通过微调预先训练的 BERT 模型进行关系抽取实验表明,与无监督关系提取的两个简单的基线相比,我们的方法显著优于两个简单的基线,即使不使用任何监督,也获得了三个数据集中的最先进结果之一;更重要的是,我们证明了使用噪声数据可以成功地对大型预先训练的语言模型进行微调,而不是依赖于黄金数据进行微调。
Nov, 2019
通过结合学习表示和结构化学习的优点,我们提出了一种最小监督关系抽取方法,可以在知识库提供的命题级监督下,准确地预测句子级别的关系提及。通过在学习期间明确地推理有关缺失数据,我们的方法能够在缓解远程监督的标签噪声的同时进行大规模的一维卷积神经网络训练。我们的方法在最小监督下的句子关系抽取方面实现了最新的成果,优于许多基线方法,包括仅使用神经模型的注意层的竞争方法。
Mar, 2019
本文研究了如何使用 “非关系型知识库” 监督从给定语料库中发现未见过的关系,我们提出了一种基于知识库嵌入的实体对约束方法,并将其与变分自编码算法相结合,实验表明这种新方法可以大幅提高现有的关系发现性能。
Apr, 2019