S2ORC: 语义学者开放研究语料库

ACLNov, 2019

S2ORC: The Semantic Scholar Open Research Corpus

PDF

Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, Dan S. Weld

TL;DRS2ORC 是一个跨学科的大语料库，包括 81.1M 篇论文的元数据、摘要、文献引用等，并且结构化地附带了 8.1M 篇 OA 论文的全文和引文、图表等信息，可用于文本挖掘研究。

Abstract

We introduce s2orc, a large corpus of 81.1M English-language academic papers spanning many academic disciplines. The →

s2orc corpus academic papers text mining metadata

发现论文，激发创造

语义学者开放数据平台

Semantic Scholar 是一个旨在帮助学者发现和理解科学文献的开放数据平台，通过使用最先进的学术 PDF 内容提取和自动知识图构建技术，结合公共和专有数据源，构建了迄今最大的开放科学文献图，包括 200 多万篇论文，8000 多万名作者，550 万个论文作者的联系，以及 24 亿多个引用的联系。

Jan, 2023

ACL OCL 语料库：推动计算语言学中的开放科学

ACL OCL 是一个学术语料库，包含了 74k 篇计算语言学领域的科学论文，210k 个提取的图形，以及针对所有 OCL 论文的主题。该研究观察到语法标注、分块和解析主题明显下降，而自然语言生成主题再次兴盛。

May, 2023

基于开放评审的数据集 (ORB)：高能物理科学论文和实验提案的自动评估

通过 OpenReview.net 和 SciPost.org 网站，我们引入了全面的 Open Review-Based 数据集（ORB）；它包括一个精选列表，其中包含超过 36,000 篇科学论文的 89,000 多条评论和最终决策。我们提供了 ORB 的数据架构和相关统计数据的概述，还讨论了基于自然语言处理的初步实验，旨在预测论文的接受情况以及从嵌入中推断出的评分统计数据。ORB 为对开放科学和审查感兴趣的研究人员提供了宝贵资源，我们的实现使进一步分析和实验使用这些数据更加便捷。我们计划随着领域的发展更新 ORB，并引入更适用于专门科学领域（如高能物理学）的新资源。

Nov, 2023

ScisummNet: 带有引文网络的科学论文摘要的大型注释语料库和内容影响模型

该论文提出了一种新的解决方案，通过开发和发布一个大规模的、手动注释的科学论文语料库，并提出了将作者的原始亮点（摘要）和文章对社区的实际影响（引用）整合的摘要方法，创建全面的、混合型摘要。我们进行了实验，证明了我们的语料库在训练数据驱动模型的科学论文摘要中的功效以及我们的混合型摘要优于摘要和传统的基于引用的摘要。这个大规模的注释语料库和混合方法提供了一个新的科学论文摘要研究框架。

Sep, 2019

增强的 BERT 嵌入用于学术出版物分类

本研究报告介绍了基于预训练语言模型的转移学习方法在学术文献分类中的运用。通过丰富数据集、使用不同的预训练语言模型，并调整超参数，研究发现 fine-tuning 预训练模型可以显著提高分类性能，其中 SPECTER2 模型效果最佳。此外，将额外的元数据加入数据集，尤其是来自 S2AG、OpenAlex 和 Crossref 的信息，可以进一步提高分类结果。本研究对于构建可靠的自动化学术出版物分类系统具有重要意义，为研究人员高效定位相关资源提供了潜在解决方案。

May, 2024

SMAuC -- 科学多作者语料库

本研究介绍了 SMAuC，这是一个新的元数据丰富的语料库，旨在用于科学写作的作者分析。SMAuC 拥有三百万多个出版物，是迄今最大的开放作者分析语料库，其同时也包含了人文科学和自然科学等多种科学文体，以及独特且已厘清的作者 ID 元数据。我们希望 SMAuC 能够帮助推进科学领域的作者分析领域。

Nov, 2022

OARelatedWork：一种来自开放获取资源的大规模相关工作段落全文数据集

该论文介绍了 OARelatedWork，这是第一个大规模的多文档摘要数据集，用于相关工作生成，包含整个相关工作部分和引用论文的全文。该数据集包括 94450 篇论文和 5824689 篇独特引用的论文。它旨在自动生成相关工作，将该领域从仅从摘要生成相关工作部分的抽象方法转向从所有可用内容生成整个相关工作部分的方式。当使用全文而不是摘要时，我们发现提取式摘要的 ROUGE-2 得分上限增加 217%。此外，我们展示了全文数据对于基线模型（如 naive、oracle、traditional 和基于 transformer 的模型）的好处。长文本输出（如相关工作部分）对于像 BERTScore 这样的自动评估指标会带来挑战，因为其输入长度有限。我们通过提出和评估使用 BERTScore 的元度量来解决这个问题。尽管操作的是较小的块，但我们证明这个元度量与人类判断具有相当的相关性，与原始的 BERTScore 相当。

May, 2024

SOFC-Exp 语料库和材料科学领域信息抽取的神经方法

介绍了在材料科学领域中信息提取的一个新挑战性任务，针对用于固体氧化物燃料电池实验的相关材料和测量条件等信息，提出了标注方案并构建 SOFC-Exp 语料库；通过神经网络模型，并结合 BERT 嵌入和递归神经网络，在该数据集上得到良好的性能，在研究领域具有竞争力的基础模型。

Jun, 2020

CL-SciSumm 2018 共享任务：结果与关键见解

CL-SciSumm Shared Task 2018 was held as part of SIGIR's Annual Conference, which focused on scientific document summarization in the computational linguistics domain, evaluated using two metrics and providing datasets for the community.

Sep, 2019

SciFact-Open: 面向开放领域的科学主张验证

本文介绍了一种新型测试集 SciFact-Open，通过信息检索中的池化技术和四种先进的科学主张验证模型的预测，评估了科学主张验证系统在 50 万个研究摘要的语料库上的表现，发现在 SciFact-Open 上进行测试要比在更小的语料库上进行测试更具挑战性。

Oct, 2022