关于科学数据在机器学习中的公平透明使用准备情况

Jan, 2024

关于科学数据在机器学习中的公平透明使用准备情况

On the Readiness of Scientific Data for a Fair and Transparent Use in Machine Learning

Joan Giner-Miguelez, Abel Gómez, Jordi Cabot

TL;DR通过分析 4041 篇不同领域的数据论文，本研究提出了一套建议指南，旨在增加数据的准备性，确保其在机器学习技术中的透明和公正使用。

Abstract

To ensure the fairness and trustworthiness of machine learning (ML) systems, recent legislative initiatives and relevant research in the M

fairness trustworthiness machine learning data documentation ml technologies

发现论文，激发创造

机器学习从业者数据文档化的认知、需求、挑战与需求

通过对 14 位机器学习从业者的半结构化访谈，发现目前数据文档化方法在性质上往往是临时性和目光短浅的，因此需要一种适应他们的上下文、与他们现有的工具和工作流程相结合、并在可能的情况下自动完成的数据文档化框架的设计要求，以解决现有文档化方法无法满足其需求的问题。

Jun, 2022

Deriva-ML: 一种连续的 FAIRness 方法用于可重复机器学习模型

提出了一种基于 FAIR 原则的数据管理工具架构和实现，通过两个案例展示了如何利用这些工具提高基于机器学习的科学研究的质量。

Jun, 2024

关于具有公平性、隐私和监管规范的负责任机器学习数据集

在当前人工智能时代，本研究讨论了负责任的机器学习数据集的重要性，并提出了一个评估数据集的负责任框架。通过公平性、隐私保护和合规性等方面的考虑，我们分析了超过 100 个数据集，发现没有一个数据集能免于公平性、隐私保护和合规性问题。我们对数据集的文档化提供了改进建议，并认为在全球范围内的数据保护法规定下，科学界的数据集创建方法需要修订。

Oct, 2023

机器学习流水线：来源追溯性、可重现性和 FAIR 数据原则

本文介绍了支持机器学习流程端到端可重复性的目标和初步步骤，探讨了除源代码和数据集可用性之外影响机器学习实验证明性的因素，并提出了将 FAIR 数据实践应用于机器学习流程的方法。文中将 ProvBook 作为工具，分析了 Jupyter Notebooks 捕捉和比较机器学习实验及其可重复性的初步结果。

Jun, 2020

机器学习数据集的问责性：源于软件工程和基础设施的实践

通过严格的数据集开发透明度框架，从软件开发生命周期中提取最佳实践，以决策和问责支持来关闭人工智能系统中的问责差距。

Oct, 2020

懒散的数据处理方式对公正研究的危害

数据实践塑造了公平机器学习研究和实践。关键数据研究通过指出不足并提出改进建议，为该领域的负责前进提供了重要的反思和批评。本研究对公平机器学习数据集进行了全面分析，展示了不经思考的常见实践如何阻碍算法公平研究的覆盖率和可靠性。我们对表格数据集中编码的保护信息以及在 142 篇出版物的 280 个实验中的使用进行了系统研究，发现了三个主要问题：（1）数据和评估中某些保护属性的缺乏代表性；（2）数据预处理过程中普遍排除少数群体；以及（3）威胁公平性研究泛化的模糊数据处理。通过在显著数据集的利用上进行示范性分析，我们展示了不经思考的数据决策如何不成比例地影响少数群体、公平度量和模型比较结果。此外，我们还发现了公开可用数据的限制、隐私考虑以及普遍缺乏意识等补充因素，加剧了这些挑战。为了解决这些问题，我们提出了一套以透明和负责任包容为核心的数据使用建议。本研究强调了对公平机器学习中数据实践进行关键重新评估的必要性，并提供了改善数据的获取和使用的方向。

Apr, 2024

评估可信 AI 医学数据质量的 METRIC 框架：一项系统综述

通过系统评估医学数据集合，我们提出了 METRIC 框架，该框架包含了 15 个数据质量意识维度，帮助减少偏见、增加稳健性、提高可解释性，从而为医学中可信赖的人工智能奠定了基础。

Feb, 2024

数据及其 (不) 内容：机器学习研究中数据集开发与使用调查

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

关于公平感知机器学习数据集的调查

本文概述了应用于公平感知机器学习中的真实世界数据集，并使用贝叶斯网络分析数据特征之间的关系，进一步进行了探索性分析。

Oct, 2021

机器学习驱动研究的可重现性

面对研究的可重复性危机，机器学习和人工智能研究也面临同样的问题。虽然研究社区已经提出了不同的解决方案如使用机器学习平台，但机器学习驱动的研究的可重复性水平并没有显著提高。本文通过综述相关文献，讨论机器学习驱动研究中的可重复性问题和障碍，并探索工具、实践和干预等潜在驱动因素，提供对于支持机器学习可重复性的不同解决方案可行性的决策支持。

Jul, 2023