解锁科学：跨模态科学信息提取的新型数据集和基准

Nov, 2023

解锁科学：跨模态科学信息提取的新型数据集和基准

Unlocking Science: Novel Dataset and Benchmark for Cross-Modality Scientific Information Extraction

Yuhan Li, Jian Wu, Zhiwei Yu, Börje F. Karlsso, Wei Shen...

TL;DR从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里，科学信息提取（SciIE）的研究见证了数个新系统和基准的发布。然而，现有以论文为中心的数据集主要只关注论文的特定部分（例如摘要），且为单模态（即只有文本或表格），这是因为处理复杂性和高昂的注释费用所导致。此外，核心信息可能存在于文本或表格中，或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取，同时减轻标注成本，我们提出了一个半监督的流程，用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程，我们为科学界提供了一些新资源，包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后，我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率，同时我们也讨论了其剩余的局限性。

Abstract

Extracting key information from scientific papers has the potential to help researchers work more efficiently and accelerate the pace of scientific progress. Over the last few years, research on Scientific Information Extraction (SciIE) witnessed the release of several new systems and benchmarks. However, existing paper-focused datasets mostly focus only on

scientific information extraction semi-supervised pipeline cross-modality ie benchmark dataset large language models

发现论文，激发创造

半监督神经标记的科学信息提取

本文通过将问题建模为序列标注，并利用半监督学习方法和数据选择方案，提出了一个基于神经标注模型的关键短语提取和分类算法，该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。

Aug, 2017

SciREX: 用于文档级信息抽取的挑战数据集

本文介绍 SciREX，它是一个涵盖多个 IE 任务的文档级 IE 数据集，包括通过科学文章识别突出实体和文档级的 $n$ 元关系识别。我们开发了一个神经模型作为一个强有力的基线，扩展了先前的 IE 模型到文档级 IE。分析模型性能显示，人类表现和当前基线之间存在显著差距，邀请社区使用我们的数据集作为发展文档级 IE 模型的挑战。

May, 2020

面向科学知识图谱构建的实体、关系和共指的多任务识别

本研究提出了一个多任务学习框架 SciIE 来识别、分类科学文章中的实体、关系和共指链接，并使用跨句子的共指链接来减少任务之间的级联错误。在科学信息提取方面，多任务模型效果优于以往模型，同时支持构建科学知识图谱分析科学文献。

Aug, 2018

利用引文图谱进行科学信息提取

本文研究了如何利用引文图来提高科学信息提取的准确性，证明结合引文图与文本提取任务能提升科学信息提取的水平。

Jun, 2021

通过多任务学习解决科学信息提取中的标签变异问题

本研究通过多任务学习和标签变异的方法，提高科学信息抽取的性能，并展示了标签变异在处理模糊实例和减少数据需求方面的潜力。

Dec, 2023

SciMMIR：科学多模态信息检索的基准评测

通过高级表示学习和跨模态对齐研究，在图像 - 文本匹配方面取得了显著进展。为了弥补科学领域中目前评估图像 - 文本匹配性能的不足，我们开发了一种专门的科学多模态信息检索（SciMMIR）基准，利用开放获取的论文集提取与科学领域相关的数据，包括从科学文档中提取的详细标题的图表图像对，并对其进行了两级子集 - 子类别层次注释，以便更全面地评估基线模型。我们对重要的多模态图像字幕生成和视觉语言模型（如 CLIP 和 BLIP）进行了零样本和微调评估，分析结果为科学领域的多模态信息检索提供了关键洞察，包括预训练和微调设置的影响以及视觉和文本编码器的影响。所有我们的数据和检查点都可以在该 URL 中公开获取。

Jan, 2024

SemEval 2017 任务 10：ScienceIE - 从科学出版物中提取关键词和关系

本文介绍 SemEval 任务，研究从科学文档中提取关键词语和它们之间的关系，以帮助读者理解哪些文章描述了哪些过程、任务和材料，共有 26 个队伍进行了 3 种评估场景的提交，任务和发现对于研究科学内容、以及广泛的知识库人口和信息提取社区都具有重要意义。

Apr, 2017

利用经过优化的大型语言模型从复杂的科技文本中提取结构化信息

通过预先训练的语言模型 GPT-3，我们提出了一种简单的序列到序列方法来联合提取科学文本中的复杂层次信息的命名实体识别和关系抽取，并证明了这种方式能够准确提取复杂科学知识的有用记录。

Dec, 2022

商业文件信息提取：朝着实用基准的方向

本文研究信息提取的问题，探讨了文档信息提取问题、数据集、基准测试等方面，提出了机器学习中的关键信息定位、提取和条目识别问题，并批评了目前缺乏半结构化商务文档的相关数据集和基准测试。

Jun, 2022

WebIE: 在网络上进行忠实和稳健的信息提取

本文提出了 WebIE 数据集，其中包括 1.6M 个句子及其详细注释。基于此数据集，我们评估了基于生成模型的信息提取模型的跨域和跨语言性能，并提出了三种训练策略。我们的实验表明，实体链接方式得到明显提高。

May, 2023