基数美德:从文本中提取关系基数
本文介绍了关系抽取(RE)的若干重要的监督、半监督和无监督技术,以及开放信息抽取(OIE)和远程监督的范例,最后描述了近期RE技术和未来研究方向。这篇综述对于领域的新手、研究人员和实践者都有用。
Dec, 2017
本论文提出一种学习关系原型的通用方法来处理关系抽取中的长尾问题,并应用于基于共现图的嵌入学习来优化实体对与对应原型间的距离,并在两个数据集上进行了广泛实验以验证其有效性。
Nov, 2020
本文提出了一种基于PRGC的联合关系三元组抽取框架,在公共基准测试中实现了最新技术的表现并在重叠三元组的复杂场景中提供一致的性能提升。
Jun, 2021
本文研究了信息提取的新问题--文本到表格,通过学习文本-表格配对数据,训练模型以生成主要内容的表格。我们将其形式化为序列到序列问题,使用预训练语言模型fine-tuned后的seq2seq模型完成任务,并通过引入表格约束和表格关系嵌入来改进性能。实验结果显示,我们的方法可以进一步提高基线模型和关系提取/命名实体提取等传统方法的性能,论文还讨论了相关挑战。
Sep, 2021
KPI-EDGAR是一个基于文件上传到EDGAR系统的财务报告的联合命名实体识别和关系提取的数据集,该数据集的主要目标是从财务文件中提取关键绩效指标,并将它们链接到他们的数值和其他属性。我们还提供了四个附带的基准测试,用于衡量未来潜在的研究成果。此外,我们提出了一种新的成功度量方式,通过将单词级加权方案纳入传统的F1分数来更好地模拟该领域实体对的本质模糊边界。
Oct, 2022
我们研究从科学文章中提取N元关系元组的问题,我们提出了一种名为ReSel的方法来解决这个问题并且在三个科学信息提取数据集上得到了显著的优于现有基线的表现。
Oct, 2022
本文中,我们通过增加零基数句子,对最先进的实体和关系提取模型进行了更加实际的实验设置与评估,结果表明这种情况下模型的 F1 得分明显下降,提出了基于 BERT 的两步建模方案,可以提高模型在这种实际情况下的性能。
Feb, 2023
信息抽取任务涉及将非结构化文本内容自动转换为结构化数据。本文提出了一种从文本中提取和分类无限制关系集的方法,它基于远程监督方法获取的形态-句法抽取模式,并创建句法和语义索引来提取和分类候选图。我们在构建在Wikidata和Wikipedia上的六个数据集上评估了我们的方法。评估结果显示,我们的方法可以实现高达0.85的精确度得分,但召回率和F1得分较低。我们的方法可以快速构建基于规则的信息抽取系统,并构建注释数据集以训练基于机器学习和深度学习的分类器。
Jan, 2024
本研究针对当前关系提取技术中存在的复杂提取场景问题进行了系统分析,指出现代深度学习方法在处理复杂数据特征时的不足。通过对15种最先进关系提取算法和7个大规模数据集的实验,研究强调了上下文模糊、关联关系和长尾数据等关键问题,并为未来的研究方向提供了建议,旨在推动信息提取领域的进步。
Sep, 2024