Oct, 2023

开放科学的兴起:追踪数据和方法共享实践的演变和感知价值

TL;DR近年来,资助机构和期刊越来越倡导开放科学实践(如数据和方法共享),以提高科学的透明度、可获取性和可重复性。本研究利用来自 arXiv 的 110 万篇论文的大规模数据集,代表了物理、数学和计算机科学领域,分析了随时间推移数据和方法链接共享实践的采用情况以及对文章接受程度的影响。我们通过训练神经文本分类模型来识别数据和方法链接,根据论文中的上下文提及自动分类 URL 类型。研究发现,随着时间推移,链接方法和数据的共享实践正在扩散,越来越多的论文包含此类 URL。可重复性努力也可能在扩散,因为相同的链接越来越多地在论文中被重复使用(特别是计算机科学领域),并且这些链接随时间越来越集中在更少的网域(如 Github)中。最后,分享数据和方法链接的文章在引用次数方面获得了增加的承认,当链接是有效的时候效果更强。这些发现共同证明了数据和方法共享实践在开放科学中的扩展和受到的重视。