D3: 一份庞大的学术元数据集，用于分析计算机科学研究的现状

Apr, 2022

D3: 一份庞大的学术元数据集，用于分析计算机科学研究的现状

D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science Research

Jan Philip Wahle, Terry Ruas, Saif M. Mohammad, Bela Gipp

TL;DR本研究提取了 DBLP 上的 600 多万篇计算机科学论文，分析了计算机科学研究的趋势、活动水平、协作情况等方面。该研究的发现是计算机科学是一个快速发展的研究领域，但近年来其平均引用次数有所下降，并且最新的主题趋势也在 DBLP 数据集中得到了呈现。

Abstract

dblp is the largest open-access repository of scientific articles on computer science and provides metadata associated with publications, authors, and venues. We retrieved more than 6 million publications from dblp

dblp computer science research trends cite patterns discovery dataset

发现论文，激发创造

使用 DBLP Discovery 数据集分析计算机科学研究的现状

本论文使用计量学方法分析计算机科学的元数据，并使用交互式 Web 应用程序 CS-Insights 进行数据可视化，发现了计算机科学领域在过去两十年中出现了大量新的作者和出版物，会议论文的受欢迎程度下降，期刊文章的引用次数更高。

Dec, 2022

BiblioDAP: 文献数据分析和处理第 1 次研讨会

介绍了 BiblioDAP'21: 第一届 Bibliographic Data Analysis and Processing 工作坊，指出由于发表的论文数量的显著增加以及固有的挑战，自动处理引文数据在数字图书馆、数据科学和机器学习中变得非常重要，其包括自动从 PDF 文档中提取引用、构建精确的引文图和作者名称消歧等方面。

Jun, 2021

CSL：一个大规模的中文科技文献数据集

本研究介绍了 CSL，一个包含 39.6 万篇中国科技文献的大型数据集，为中国自然语言处理和监督学习提供了有意义的语料库和标注。同时，本研究还基于 CSL 提出了一个基准用于评估模型在科技领域任务中的表现，如摘要生成、关键词提取和文本分类，并分析已有 NLP 模型在这些任务上的表现，揭示了进行中文科技 NLP 任务所面临的挑战。

Sep, 2022

CS-Insights：一种分析计算机科学研究的系统

CS-Insights 是一款交互式网络应用程序，可通过多个角度分析 DBLP 中的计算机科学出版物，用户可以通过专用的界面识别研究活动趋势、作者和会议的统计数据、感兴趣的话题以及计算机科学研究对其他领域的影响。CS-Insights 是公开的，其模块化架构可以轻松地适应于计算机科学以外的领域。

Oct, 2022

DBLP-QuAD: 一个基于 DBLP 学术知识图谱的问答数据集

本文在 DBLP 学术知识图谱上创建了一个问答数据集，其中包括 10,000 个问题答案对以及相应的 SPARQL 查询，可在 DBLP KG 上执行以获取正确答案。DBLP-QuAD 是最大的学术问答数据集。

Mar, 2023

Scopus、Web of Science、Dimensions、Crossref 以及 Microsoft Academic 学术文献数据源的大规模比较

本研究比较了 5 种多学科文献数据来源：Scopus、Web of Science、Dimensions、Crossref 和 Microsoft Academic，并讨论了它们的覆盖率和引用链接的完整性和准确性等方面的差异。

May, 2020

[引文需求] 医学影像会议中的数据使用和引文实践

本文介绍了两个开源工具，用于检测科学论文中数据集的使用，其中一个使用 OpenAlex 和全文分析的流程，另一个是我们研究中使用的 PDF 注释软件，我们将这两个工具应用于 MICCAI 和 MIDL 的论文中，计算了 2013 年至 2023 年间引用、全文提及和引用提及三种数据集出现方式的比例和变化。研究发现使用了有限数据集，且引用实践存在不同，使追踪自动化变得困难。

Feb, 2024

数据集：自然语言处理社区的共享库

该研究论文探讨了一个名为 Datasets 的 NLP 数据集库，旨在通过标准化终端用户接口、版本控制和文档，为 NLP 研究人员提供一个小型数据集至互联网规模文集均能使用的轻量级前端，并采用分布式、社区驱动的方法添加数据集和记录使用情况。经过一年的发展，在该库中已经包含超过 650 个独特的数据集，有 250 多名贡献者，并帮助支持了一系列新颖的交叉数据集研究项目和共享任务。

Sep, 2021

数字图书馆研究社群中的合著网络

本文运用社交网络分析方法对数字图书馆领域发表文章的合著者进行了研究，引入了 AuthorRank 指标评估作者在网络中的影响力，并验证了其优于其他中心性度量方法的效果。此外，研究了国际参与 Joint Conference on Digital Libraries (JCDL) 的数量和性质。

Feb, 2005

基于网络的文献数据库引用拓扑的统计比较

本文比较了 6 个常用的文献数据库，通过图统计学的方法比较它们的引文网络的拓扑一致性，并发现其中存在一些统计不一致的现象。对比结果发现， DBLP 计算机科学文献库的引文网络的一致性最差，而 Web of Science 从一致性的角度来看更可靠。这项工作既可以作为文献计量学和科学计量学领域学者的参考，也可以作为政府和研究机构科学评估的指导方针。

Feb, 2015