天体物理学文献中的实体检测：基于词和基于范围的实体识别方法比较

ACLNov, 2022

天体物理学文献中的实体检测：基于词和基于范围的实体识别方法比较

Detecting Entities in the Astrophysics Literature: A Comparison of Word-based and Span-based Entity Recognition Methods

Xiang Dai, Sarvnaz Karimi

TL;DR本研究旨在构建一个可从天体物理学文献中识别命名实体的系统，并比较基于单词标记和基于跨度分类的方法，在验证和测试中最好的提交均进行了评估，得分分别为 0.8307 和 0.7990。

Abstract

information extraction from scientific literature can be challenging due to the highly specialised nature of such text. We describe our entity recognition methods developed as part of the DEAL (Detecting Entities

information extraction entity recognition astrophysics literature word-based tagging span-based classification

发现论文，激发创造

Astro-NER - 天文学命名实体识别: GPT 是否是良好领域专家标注者？

本研究使用一个经过精调的 LLM 模型的预测结果来辅助非领域专家标注天文学文献中的科学实体，以便揭示这样的协作过程是否能够逼近领域专家的专业知识。研究结果显示领域专家与 LLM 辅助标注者之间有中等程度的一致性，并且领域专家与 LLM 模型预测之间有相对公平的一致性。另外，我们还比较了精调和默认设置的 LLM 模型在这个任务上的表现。同时，我们还引入了一个经领域专家验证的专门的天文科学实体标注方案。我们的方法采用了以学术研究贡献为中心的视角，专注于与研究主题相关的科学实体。我们创建的包含 5000 个标注天文学文章标题的数据集已公开提供。

May, 2024

面向科学知识图谱构建的实体、关系和共指的多任务识别

本研究提出了一个多任务学习框架 SciIE 来识别、分类科学文章中的实体、关系和共指链接，并使用跨句子的共指链接来减少任务之间的级联错误。在科学信息提取方面，多任务模型效果优于以往模型，同时支持构建科学知识图谱分析科学文献。

Aug, 2018

大型语言模型和知识图谱用于天体实体消歧

通过使用大型语言模型 (LLMs) 和知识图谱聚类来提取天文文本中的实体和关系，本研究在黑客马拉松期间进行了一项实验，并演示了一种消歧实体的方法，该实体可在天文领域的各种上下文中出现。通过收集特定实体周围的摘录并利用 GPT-4 语言模型，提取相关实体和关系。然后使用利登算法对这些提取的信息构建知识图谱，并对图谱进行聚类。利登聚类结果被用来识别未知摘录与每个聚类的关联度百分比，从而实现消歧。实验展示了在天文研究中将 LLMs 和知识图谱聚类技术相结合进行信息提取的潜力，结果强调了该方法在识别和消歧实体以及基于关系对它们进行有意义聚类方面的有效性。

Jun, 2024

AIFB-WebScience 参加 SemEval-2022 Task 12: 首先进行关系抽取 -- 利用关系抽取技术识别实体

本文提出了一种基于变压器语言模型的端到端联合实体和关系抽取方法，应用于将数学符号与 LaTeX 文档中的描述相关联的任务，并且代码公开可用。

Mar, 2022

半监督神经标记的科学信息提取

本文通过将问题建模为序列标注，并利用半监督学习方法和数据选择方案，提出了一个基于神经标注模型的关键短语提取和分类算法，该算法在 2017 年 SemEval 科学信息抽取任务中明显优于现有信息抽取方法。

Aug, 2017

实体跟踪改善填空式阅读理解

本文探索基于简单神经方法的阅读理解模型在长期语境处理和记忆显著信息方面的能力，提出了两个扩展方案：增加实体特征和使用多任务跟踪目标进行训练，并在 LAMBADA 数据集上取得了优于当前最先进方法的效果，特别是在难度较高的实体示例中。

Oct, 2018

深度学习应用于学术信息提取的经验教训：有效的方法、问题以及未来方向

本论文介绍了一种自动的全文学术实体提取器 EneRex，用于从学术研究文章中提取技术细节，如数据集使用、任务目标、方法，并演示了如何从大规模数据集中提取关键见解和趋势，最终优于现有的模型，为未来的研究提供了讨论方向和指引。

Jul, 2022

Split-NER：基于两个问题 - 回答分类的命名实体识别

我们通过将 NER 问题分成两个逻辑子任务来解决，即 Span Detection 和 Span Classification，进一步将两个子任务形式化为问答问题，使用两个较为简洁的模型针对每个子任务进行优化。与 OntoNotes5.0、WNUT17 和一个网络安全数据集的基准模型相比，我们的系统 SplitNER 表现出色，并且在 BioNLP13CG 数据集上取得了相当的性能，同时与 QA 基准模型相比，训练时间显著减少。我们的系统的有效性来自对 BERT 模型进行两次微调，分别用于 span detection 和 classification。该研究代码可在给定的 https URL 上找到。

Oct, 2023

解锁科学：跨模态科学信息提取的新型数据集和基准

从科学论文中提取关键信息有助于研究人员提高工作效率并加快科学进展的速度。在过去几年里，科学信息提取（SciIE）的研究见证了数个新系统和基准的发布。然而，现有以论文为中心的数据集主要只关注论文的特定部分（例如摘要），且为单模态（即只有文本或表格），这是因为处理复杂性和高昂的注释费用所导致。此外，核心信息可能存在于文本或表格中，或者跨越二者。为弥补这一数据可用性的差距并实现跨模态信息提取，同时减轻标注成本，我们提出了一个半监督的流程，用于迭代地对文本中的实体、以及表格中的实体和关系进行注释。基于此流程，我们为科学界提供了一些新资源，包括一个高质量的基准、一个大型语料库和一个半监督的注释流程。我们进一步报告了最先进的信息提取模型在提出的基准数据集上的性能作为一个基准。最后，我们探索了像 ChatGPT 这样的大型语言模型在当前任务中的潜在能力。我们的新数据集、结果和分析验证了半监督流程的有效性和效率，同时我们也讨论了其剩余的局限性。

Nov, 2023

利用语义文本相似度提升 AstroBERT 模型性能

NASA Astrophysics Data System 的研究人员介绍了 astroBERT，这是一个用于天文学论文的机器学习语言模型。他们还展示了 astroBERT 在天体物理学特定任务上如何改进现有的公共语言模型，并详细说明 ADS 计划利用科学论文的独特结构，引用图和引文上下文进一步完善 astroBERT。

Nov, 2022