科学数据的养护和喂养的 10 个简单规则
该研究提出一个潜在的负责任数据(重新使用)清单,旨在标准化会议提交的同行评审,并促进社区内发布研究的更深入视角,从而为数据(重新使用)的一致标准的制定做出贡献。
Sep, 2021
近年来,资助机构和期刊越来越倡导开放科学实践(如数据和方法共享),以提高科学的透明度、可获取性和可重复性。本研究利用来自 arXiv 的 110 万篇论文的大规模数据集,代表了物理、数学和计算机科学领域,分析了随时间推移数据和方法链接共享实践的采用情况以及对文章接受程度的影响。我们通过训练神经文本分类模型来识别数据和方法链接,根据论文中的上下文提及自动分类 URL 类型。研究发现,随着时间推移,链接方法和数据的共享实践正在扩散,越来越多的论文包含此类 URL。可重复性努力也可能在扩散,因为相同的链接越来越多地在论文中被重复使用(特别是计算机科学领域),并且这些链接随时间越来越集中在更少的网域(如 Github)中。最后,分享数据和方法链接的文章在引用次数方面获得了增加的承认,当链接是有效的时候效果更强。这些发现共同证明了数据和方法共享实践在开放科学中的扩展和受到的重视。
Oct, 2023
这篇文章介绍了数据伦理,主要针对数学家,但也希望对其他人有所帮助。作者并不是一个数据伦理方面的专家,文章只是一个起点。作者鼓励读者研究讨论的资源,并继续在其生活中仔细思考数据伦理和数据及其分析的社会影响。
Jan, 2022
本文介绍了两个开源工具,用于检测科学论文中数据集的使用,其中一个使用 OpenAlex 和全文分析的流程,另一个是我们研究中使用的 PDF 注释软件,我们将这两个工具应用于 MICCAI 和 MIDL 的论文中,计算了 2013 年至 2023 年间引用、全文提及和引用提及三种数据集出现方式的比例和变化。研究发现使用了有限数据集,且引用实践存在不同,使追踪自动化变得困难。
Feb, 2024
提出了一种基于 FAIR 原则的数据管理工具架构和实现,通过两个案例展示了如何利用这些工具提高基于机器学习的科学研究的质量。
Jun, 2024