利用引文图谱进行科学信息提取

ACLJun, 2021

CitationIE: Leveraging the Citation Graph for Scientific Information Extraction

Vijay Viswanathan, Graham Neubig, Pengfei Liu

TL;DR本文研究了如何利用引文图来提高科学信息提取的准确性，证明结合引文图与文本提取任务能提升科学信息提取的水平。

Abstract

Automatically extracting key information from scientific documents has the potential to help scientists work more efficiently and accelerate the pace of scientific progress. Prior work has considered extracting document-level entity clusters and relations end-to-end from raw scientific text, which can improve →

scientific information extraction citation graph document context literature search entity clusters

发现论文，激发创造

引用图增强的科学论文摘要提取

本文研究了使用引文图来提高科学论文摘要生成的质量，提出了两种方法：为任务提供简单而低成本的多粒度无监督摘要生成方法 (MUS)，以及对大量标记数据具有更准确结果的基于图的监督摘要方法 (GSS)，并在公共基准数据集上进行了实验验证以证明方法的有效性。

Dec, 2022

解锁科学：跨模态科学信息提取的新型数据集和基准

从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里，科学信息提取（SciIE）的研究见证了数个新系统和基准的发布。然而，现有以论文为中心的数据集主要只关注论文的特定部分（例如摘要），且为单模态（即只有文本或表格），这是因为处理复杂性和高昂的注释费用所导致。此外，核心信息可能存在于文本或表格中，或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取，同时减轻标注成本，我们提出了一个半监督的流程，用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程，我们为科学界提供了一些新资源，包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后，我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率，同时我们也讨论了其剩余的局限性。

Nov, 2023

面向科学知识图谱构建的实体、关系和共指的多任务识别

本研究提出了一个多任务学习框架 SciIE 来识别、分类科学文章中的实体、关系和共指链接，并使用跨句子的共指链接来减少任务之间的级联错误。在科学信息提取方面，多任务模型效果优于以往模型，同时支持构建科学知识图谱分析科学文献。

Aug, 2018

引用图增强科学论文摘要

本论文提出了一种基于引用图的摘要模型 CGSum，相对于基于输入文档内容进行摘要的方法，它可以更好的理解科技论文的含义并产生高质量的摘要，同时构建了一个包含 141K 篇不同领域的科技论文的数据集 Semantic Scholar Network（SSN），这个数据集构成了一个大型的连接引用图。研究结果表明，引用图对于理解论文内容并产生高质量的摘要十分关键。

Apr, 2021

半监督神经标记的科学信息提取

本文通过将问题建模为序列标注，并利用半监督学习方法和数据选择方案，提出了一个基于神经标注模型的关键短语提取和分类算法，该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。

Aug, 2017

SciEv：科学新闻查找科学证据论文

SciEv 是一个系统，可以在给定科学新闻文章的情况下搜索科学证据论文，并采用两阶段查询范式以检索候选论文并进行重新排序，它使用领域知识实体来找到候选论文，证明比常规关键短语更有效，并在重排阶段中探索了新闻文章和候选论文的不同文档表示方法。

Apr, 2022

GraphIE: 基于图的信息提取框架

本文介绍了一种基于图推理的信息抽取框架 GraphIE，通过图卷积处理文本单元之间的广泛依赖关系，生成更丰富的表示以提高词级预测的性能，评估表明 GraphIE 明显优于现有的基于序列标注模型。

Oct, 2018

知识增强的联合生物医学实体和关系提取

本论文提出了一种名为 KECI（知识增强的集体推理）的新框架，结合外部知识进行实体和关系提取，在两个基准数据集 BioRelEx 和 ADE 中实现新的最先进结果，使用全局关系信息将提及跨度链接到实体，使用图卷积网络将全局关系信息集成到局部表示中。

May, 2021

SemEval 2017 任务 10：ScienceIE - 从科学出版物中提取关键词和关系

本文介绍 SemEval 任务，研究从科学文档中提取关键词语和它们之间的关系，以帮助读者理解哪些文章描述了哪些过程、任务和材料，共有 26 个队伍进行了 3 种评估场景的提交，任务和发现对于研究科学内容、以及广泛的知识库人口和信息提取社区都具有重要意义。

Apr, 2017

GraphER: 一种结构感知的文本到图模型，用于实体和关系抽取

该研究论文提出了一种新颖的方法，将信息提取任务转化为图结构学习，通过动态细化和优化图结构来增强模型在实体和关系预测方面的能力，相比于以前的模型，该方法允许更好的交互和结构驱动决策，同时在联合实体和关系提取基准测试上与最先进的基准模型相比获得了有竞争力的结果。

Apr, 2024