D3: 一份庞大的学术元数据集,用于分析计算机科学研究的现状
本论文使用计量学方法分析计算机科学的元数据,并使用交互式 Web 应用程序 CS-Insights 进行数据可视化,发现了计算机科学领域在过去两十年中出现了大量新的作者和出版物,会议论文的受欢迎程度下降,期刊文章的引用次数更高。
Dec, 2022
介绍了 BiblioDAP'21: 第一届 Bibliographic Data Analysis and Processing 工作坊,指出由于发表的论文数量的显著增加以及固有的挑战,自动处理引文数据在数字图书馆、数据科学和机器学习中变得非常重要,其包括自动从 PDF 文档中提取引用、构建精确的引文图和作者名称消歧等方面。
Jun, 2021
本研究介绍了 CSL,一个包含 39.6 万篇中国科技文献的大型数据集,为中国自然语言处理和监督学习提供了有意义的语料库和标注。同时,本研究还基于 CSL 提出了一个基准用于评估模型在科技领域任务中的表现,如摘要生成、关键词提取和文本分类,并分析已有 NLP 模型在这些任务上的表现,揭示了进行中文科技 NLP 任务所面临的挑战。
Sep, 2022
CS-Insights 是一款交互式网络应用程序,可通过多个角度分析 DBLP 中的计算机科学出版物,用户可以通过专用的界面识别研究活动趋势、作者和会议的统计数据、感兴趣的话题以及计算机科学研究对其他领域的影响。CS-Insights 是公开的,其模块化架构可以轻松地适应于计算机科学以外的领域。
Oct, 2022
本文在 DBLP 学术知识图谱上创建了一个问答数据集,其中包括 10,000 个问题答案对以及相应的 SPARQL 查询,可在 DBLP KG 上执行以获取正确答案。DBLP-QuAD 是最大的学术问答数据集。
Mar, 2023
本研究比较了 5 种多学科文献数据来源:Scopus、Web of Science、Dimensions、Crossref 和 Microsoft Academic,并讨论了它们的覆盖率和引用链接的完整性和准确性等方面的差异。
May, 2020
本文介绍了两个开源工具,用于检测科学论文中数据集的使用,其中一个使用 OpenAlex 和全文分析的流程,另一个是我们研究中使用的 PDF 注释软件,我们将这两个工具应用于 MICCAI 和 MIDL 的论文中,计算了 2013 年至 2023 年间引用、全文提及和引用提及三种数据集出现方式的比例和变化。研究发现使用了有限数据集,且引用实践存在不同,使追踪自动化变得困难。
Feb, 2024
该研究论文探讨了一个名为 Datasets 的 NLP 数据集库,旨在通过标准化终端用户接口、版本控制和文档,为 NLP 研究人员提供一个小型数据集至互联网规模文集均能使用的轻量级前端,并采用分布式、社区驱动的方法添加数据集和记录使用情况。经过一年的发展,在该库中已经包含超过 650 个独特的数据集,有 250 多名贡献者,并帮助支持了一系列新颖的交叉数据集研究项目和共享任务。
Sep, 2021
本文运用社交网络分析方法对数字图书馆领域发表文章的合著者进行了研究,引入了 AuthorRank 指标评估作者在网络中的影响力,并验证了其优于其他中心性度量方法的效果。此外,研究了国际参与 Joint Conference on Digital Libraries (JCDL) 的数量和性质。
Feb, 2005
本文比较了 6 个常用的文献数据库,通过图统计学的方法比较它们的引文网络的拓扑一致性,并发现其中存在一些统计不一致的现象。对比结果发现, DBLP 计算机科学文献库的引文网络的一致性最差,而 Web of Science 从一致性的角度来看更可靠。这项工作既可以作为文献计量学和科学计量学领域学者的参考,也可以作为政府和研究机构科学评估的指导方针。
Feb, 2015