PST-Bench: 追踪和评估出版物的来源

Feb, 2024

PST-Bench: 追踪和评估出版物的来源

PST-Bench: Tracing and Benchmarking the Source of Publications

Fanjin Zhang, Kun Cao, Yukuo Cen, Jifan Yu, Da Yin...

TL;DR本文研究了论文来源追踪的问题，并构建了计算机科学领域中高质量且不断增长的数据集 PST-Bench，通过 PST-Bench 揭示了不同主题之间不同的演化模式，并探讨了该领域的潜在方向。

Abstract

Tracing the source of research papers is a fundamental yet challenging task for researchers. The billion-scale citation relations between papers hinder researchers from understanding the evolution of science effi

research papers source tracing evolution of science pst-bench computer science

发现论文，激发创造

使用 DBLP Discovery 数据集分析计算机科学研究的现状

本论文使用计量学方法分析计算机科学的元数据，并使用交互式 Web 应用程序 CS-Insights 进行数据可视化，发现了计算机科学领域在过去两十年中出现了大量新的作者和出版物，会议论文的受欢迎程度下降，期刊文章的引用次数更高。

Dec, 2022

SciEv：科学新闻查找科学证据论文

SciEv 是一个系统，可以在给定科学新闻文章的情况下搜索科学证据论文，并采用两阶段查询范式以检索候选论文并进行重新排序，它使用领域知识实体来找到候选论文，证明比常规关键短语更有效，并在重排阶段中探索了新闻文章和候选论文的不同文档表示方法。

Apr, 2022

作者和论文网络的同时演化

本文综述了科学演化模型的重要工作，然后介绍了一般的过程模型，该模型同时生成了共同作者和论文引用网络，该模型通过主题划分作者和论文、作者引用最新论文以及作者引用已阅读论文引用的论文来模拟论文引用网络的统计和动态性质，并将其验证为线性关系数的主题与模拟论文引用网络的聚类系数相关。

Nov, 2003

通过时间平衡的网络中心性识别重要论文

本文分析了美国物理学会期刊自 1893 年至 2009 年间发表的 449,935 篇论文的引证网络，并比较了基于引用计数的度量与网络度量之间的差异性。其中，一种结合了 PageRank 中心性、且不受时间偏差影响的新度量是总体表现最佳的度量方式，这也表明引证网络结构包含可用于提高科学出版物排名的信息。

Aug, 2016

利用 Transformer 根据出版数据映射研究人员活动

本研究应用基于 Transformer 的预训练语言模型 BERT 探究了本地出版数据库中的科研话题，并通过计算文章相似度对研究人员进行了聚类，引入了作者自相似概念以表示他们的主题变化。

Jun, 2023

编程知识跟踪：一份全面数据集和一个新模型

本文在编程教育领域研究知识追踪，提出了一个新的模型 PDKT 以及一个最全面的数据集 BePKT，实验结果显示该模型在编程知识追踪方面表现突出，且码嵌入策略基于 PLCodeBERT 对于提高准确性有补充作用。

Dec, 2021

Dyport: 动态基于重要性的假设生成基准技术

该研究提出了一个新颖的 benchmarking 框架 Dyport，用于评估生物医学假设生成系统。利用经过筛选的数据集，在真实条件下测试这些系统，增强了我们评估的相关性。我们将筛选数据库中的知识整合到动态图中，并伴随着一种量化发现重要性的方法。这不仅评估了假设的准确性，还评估了它们在生物医学研究中的潜在影响，这显著扩展了传统的链接预测基准。我们的 benchmarking 过程的适用性在应用于生物医学语义知识图上的几个链接预测系统上得到了证明。我们的灵活性 benchmarking 系统旨在广泛应用于假设生成质量验证，旨在扩大生物医学研究界的科学发现范围。Dyport 框架完全开源，所有代码和数据集都可以在此 https 的 URL 中获得。

Dec, 2023

探测流行事件类谣言检测基准测试中的伪相关性

针对传言检测中存在的因多种原因导致的假相关性跟踪误导了已有方法，本文提出了事件分离式谣言检测方法并给出了出版者样式聚合，证明了该方法在准确性、效率和普适性方面均优于现有基线。

Sep, 2022

开放科学的兴起：追踪数据和方法共享实践的演变和感知价值

近年来，资助机构和期刊越来越倡导开放科学实践（如数据和方法共享），以提高科学的透明度、可获取性和可重复性。本研究利用来自 arXiv 的 110 万篇论文的大规模数据集，代表了物理、数学和计算机科学领域，分析了随时间推移数据和方法链接共享实践的采用情况以及对文章接受程度的影响。我们通过训练神经文本分类模型来识别数据和方法链接，根据论文中的上下文提及自动分类 URL 类型。研究发现，随着时间推移，链接方法和数据的共享实践正在扩散，越来越多的论文包含此类 URL。可重复性努力也可能在扩散，因为相同的链接越来越多地在论文中被重复使用（特别是计算机科学领域），并且这些链接随时间越来越集中在更少的网域（如 Github）中。最后，分享数据和方法链接的文章在引用次数方面获得了增加的承认，当链接是有效的时候效果更强。这些发现共同证明了数据和方法共享实践在开放科学中的扩展和受到的重视。

Oct, 2023

PubGraph: 一个大规模的科学时间知识图谱

本文介绍了 PubGraph，一种大规模的时间知识图谱资源，可用于研究科学进展，并使用三个知识图来提供不同尺度的实验，介绍了新的链接预测基准和两种新的归纳式学习方法，它们更适合 PubGraph，能够在没有明确特征的未见节点上操作，比现有模型表现更好。

Feb, 2023