关于科学数据在机器学习中的公平透明使用准备情况
通过对 14 位机器学习从业者的半结构化访谈,发现目前数据文档化方法在性质上往往是临时性和目光短浅的,因此需要一种适应他们的上下文、与他们现有的工具和工作流程相结合、并在可能的情况下自动完成的数据文档化框架的设计要求,以解决现有文档化方法无法满足其需求的问题。
Jun, 2022
提出了一种基于 FAIR 原则的数据管理工具架构和实现,通过两个案例展示了如何利用这些工具提高基于机器学习的科学研究的质量。
Jun, 2024
在当前人工智能时代,本研究讨论了负责任的机器学习数据集的重要性,并提出了一个评估数据集的负责任框架。通过公平性、隐私保护和合规性等方面的考虑,我们分析了超过 100 个数据集,发现没有一个数据集能免于公平性、隐私保护和合规性问题。我们对数据集的文档化提供了改进建议,并认为在全球范围内的数据保护法规定下,科学界的数据集创建方法需要修订。
Oct, 2023
本文介绍了支持机器学习流程端到端可重复性的目标和初步步骤,探讨了除源代码和数据集可用性之外影响机器学习实验证明性的因素,并提出了将 FAIR 数据实践应用于机器学习流程的方法。文中将 ProvBook 作为工具,分析了 Jupyter Notebooks 捕捉和比较机器学习实验及其可重复性的初步结果。
Jun, 2020
数据实践塑造了公平机器学习研究和实践。关键数据研究通过指出不足并提出改进建议,为该领域的负责前进提供了重要的反思和批评。本研究对公平机器学习数据集进行了全面分析,展示了不经思考的常见实践如何阻碍算法公平研究的覆盖率和可靠性。我们对表格数据集中编码的保护信息以及在 142 篇出版物的 280 个实验中的使用进行了系统研究,发现了三个主要问题:(1)数据和评估中某些保护属性的缺乏代表性;(2)数据预处理过程中普遍排除少数群体;以及(3)威胁公平性研究泛化的模糊数据处理。通过在显著数据集的利用上进行示范性分析,我们展示了不经思考的数据决策如何不成比例地影响少数群体、公平度量和模型比较结果。此外,我们还发现了公开可用数据的限制、隐私考虑以及普遍缺乏意识等补充因素,加剧了这些挑战。为了解决这些问题,我们提出了一套以透明和负责任包容为核心的数据使用建议。本研究强调了对公平机器学习中数据实践进行关键重新评估的必要性,并提供了改善数据的获取和使用的方向。
Apr, 2024
通过系统评估医学数据集合,我们提出了 METRIC 框架,该框架包含了 15 个数据质量意识维度,帮助减少偏见、增加稳健性、提高可解释性,从而为医学中可信赖的人工智能奠定了基础。
Feb, 2024
面对研究的可重复性危机,机器学习和人工智能研究也面临同样的问题。虽然研究社区已经提出了不同的解决方案如使用机器学习平台,但机器学习驱动的研究的可重复性水平并没有显著提高。本文通过综述相关文献,讨论机器学习驱动研究中的可重复性问题和障碍,并探索工具、实践和干预等潜在驱动因素,提供对于支持机器学习可重复性的不同解决方案可行性的决策支持。
Jul, 2023