科学数据的养护和喂养的 10 个简单规则

Jan, 2014

科学数据的养护和喂养的 10 个简单规则

10 Simple Rules for the Care and Feeding of Scientific Data

Alyssa Goodman, Alberto Pepe, Alexander W. Blocker, Christine L. Borgman, Kyle Cranmer...

TL;DR本文为科学家提供了一份简短指南，介绍了他们应该采取的步骤，以确保其数据和相关分析持续有价值并得到认可。该指南旨在帮助研究人员了解为何 “关心和管理” 数据的重要性以及如何实现这一目标。

Abstract

This article offers a short guide to the steps scientists can take to ensure that their data and associated analyses continue to be of value and to be recognized. In just the past few years, hundreds of scholarly papers and reports have been written on questions of data sharing,

data management data sharing research reproducibility data provenance privacy

发现论文，激发创造

关于科学数据在机器学习中的公平透明使用准备情况

通过分析 4041 篇不同领域的数据论文，本研究提出了一套建议指南，旨在增加数据的准备性，确保其在机器学习技术中的透明和公正使用。

Jan, 2024

Dave'，你在干什么？自然语言处理中负责任的数据使用清单

该研究提出一个潜在的负责任数据（重新使用）清单，旨在标准化会议提交的同行评审，并促进社区内发布研究的更深入视角，从而为数据（重新使用）的一致标准的制定做出贡献。

Sep, 2021

开放科学的兴起：追踪数据和方法共享实践的演变和感知价值

近年来，资助机构和期刊越来越倡导开放科学实践（如数据和方法共享），以提高科学的透明度、可获取性和可重复性。本研究利用来自 arXiv 的 110 万篇论文的大规模数据集，代表了物理、数学和计算机科学领域，分析了随时间推移数据和方法链接共享实践的采用情况以及对文章接受程度的影响。我们通过训练神经文本分类模型来识别数据和方法链接，根据论文中的上下文提及自动分类 URL 类型。研究发现，随着时间推移，链接方法和数据的共享实践正在扩散，越来越多的论文包含此类 URL。可重复性努力也可能在扩散，因为相同的链接越来越多地在论文中被重复使用（特别是计算机科学领域），并且这些链接随时间越来越集中在更少的网域（如 Github）中。最后，分享数据和方法链接的文章在引用次数方面获得了增加的承认，当链接是有效的时候效果更强。这些发现共同证明了数据和方法共享实践在开放科学中的扩展和受到的重视。

Oct, 2023

数据及其 (不) 内容：机器学习研究中数据集开发与使用调查

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

缓存和可复现性：使数据科学实验更快、更公平

本文建议将缓存作为数据科学项目中研究软件开发过程的组成部分，以促进实验的重现性和可持续发展，从而实现对数据相关性越来越公平。

Nov, 2022

优雅遗忘 II. 数据作为过程

本文探讨了数据从获取、筛选再到利用三个不同阶段的处理过程，强调了协调将数据变成摘要统计信息并不断调整缩放的重要性以最大化其价值。

Nov, 2022

数学家的数据伦理非专业介绍

这篇文章介绍了数据伦理，主要针对数学家，但也希望对其他人有所帮助。作者并不是一个数据伦理方面的专家，文章只是一个起点。作者鼓励读者研究讨论的资源，并继续在其生活中仔细思考数据伦理和数据及其分析的社会影响。

Jan, 2022

AI 的数据卓越：你为什么应该关心

这篇论文探讨了机器学习模型的有效性，强调了数据的重要性以及对数据进行优化以提高模型效果的必要性，并指出需要将关注点从算法改进转移到数据的优化。

Nov, 2021

[引文需求] 医学影像会议中的数据使用和引文实践

本文介绍了两个开源工具，用于检测科学论文中数据集的使用，其中一个使用 OpenAlex 和全文分析的流程，另一个是我们研究中使用的 PDF 注释软件，我们将这两个工具应用于 MICCAI 和 MIDL 的论文中，计算了 2013 年至 2023 年间引用、全文提及和引用提及三种数据集出现方式的比例和变化。研究发现使用了有限数据集，且引用实践存在不同，使追踪自动化变得困难。

Feb, 2024

Deriva-ML: 一种连续的 FAIRness 方法用于可重复机器学习模型

提出了一种基于 FAIR 原则的数据管理工具架构和实现，通过两个案例展示了如何利用这些工具提高基于机器学习的科学研究的质量。

Jun, 2024