利用引文图谱进行科学信息提取
本文研究了使用引文图来提高科学论文摘要生成的质量,提出了两种方法:为任务提供简单而低成本的多粒度无监督摘要生成方法 (MUS),以及对大量标记数据具有更准确结果的基于图的监督摘要方法 (GSS),并在公共基准数据集上进行了实验验证以证明方法的有效性。
Dec, 2022
从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里,科学信息提取(SciIE)的研究见证了数个新系统和基准的发布。然而,现有以论文为中心的数据集主要只关注论文的特定部分(例如摘要),且为单模态(即只有文本或表格),这是因为处理复杂性和高昂的注释费用所导致。此外,核心信息可能存在于文本或表格中,或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取,同时减轻标注成本,我们提出了一个半监督的流程,用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程,我们为科学界提供了一些新资源,包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后,我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率,同时我们也讨论了其剩余的局限性。
Nov, 2023
本研究提出了一个多任务学习框架 SciIE 来识别、分类科学文章中的实体、关系和共指链接,并使用跨句子的共指链接来减少任务之间的级联错误。在科学信息提取方面,多任务模型效果优于以往模型,同时支持构建科学知识图谱分析科学文献。
Aug, 2018
本论文提出了一种基于引用图的摘要模型 CGSum,相对于基于输入文档内容进行摘要的方法,它可以更好的理解科技论文的含义并产生高质量的摘要,同时构建了一个包含 141K 篇不同领域的科技论文的数据集 Semantic Scholar Network(SSN),这个数据集构成了一个大型的连接引用图。研究结果表明,引用图对于理解论文内容并产生高质量的摘要十分关键。
Apr, 2021
本文通过将问题建模为序列标注,并利用半监督学习方法和数据选择方案,提出了一个基于神经标注模型的关键短语提取和分类算法,该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。
Aug, 2017
SciEv 是一个系统,可以在给定科学新闻文章的情况下搜索科学证据论文,并采用两阶段查询范式以检索候选论文并进行重新排序,它使用领域知识实体来找到候选论文,证明比常规关键短语更有效,并在重排阶段中探索了新闻文章和候选论文的不同文档表示方法。
Apr, 2022
本文介绍了一种基于图推理的信息抽取框架 GraphIE,通过图卷积处理文本单元之间的广泛依赖关系,生成更丰富的表示以提高词级预测的性能,评估表明 GraphIE 明显优于现有的基于序列标注模型。
Oct, 2018
本论文提出了一种名为 KECI(知识增强的集体推理)的新框架,结合外部知识进行实体和关系提取,在两个基准数据集 BioRelEx 和 ADE 中实现新的最先进结果,使用全局关系信息将提及跨度链接到实体,使用图卷积网络将全局关系信息集成到局部表示中。
May, 2021
本文介绍 SemEval 任务,研究从科学文档中提取关键词语和它们之间的关系,以帮助读者理解哪些文章描述了哪些过程、任务和材料,共有 26 个队伍进行了 3 种评估场景的提交,任务和发现对于研究科学内容、以及广泛的知识库人口和信息提取社区都具有重要意义。
Apr, 2017
该研究论文提出了一种新颖的方法,将信息提取任务转化为图结构学习,通过动态细化和优化图结构来增强模型在实体和关系预测方面的能力,相比于以前的模型,该方法允许更好的交互和结构驱动决策,同时在联合实体和关系提取基准测试上与最先进的基准模型相比获得了有竞争力的结果。
Apr, 2024