Dec, 2019
档案馆的教训:机器学习中收集社会文化数据的策略
Lessons from Archives: Strategies for Collecting Sociocultural Data in Machine Learning
Eun Seo Jo, Timnit Gebru
TL;DR本文强调数据收集是机器学习中一个被忽视的环节,社会文化机器学习可以从档案馆中汲取数据收集方法的经验,以此提高数据收集的公正性、透明度等方面。
Abstract
A growing body of work shows that many problems in fairness, accountability,
transparency, and ethics in →
发现论文,激发创造
机器学习数据采集调查:大数据 - AI 集成视角
调查报告探讨机器学习和自然语言处理领域中数据收集的现状和挑战,特别关注数据获取、标注和模型优化三个方面,提供技术选择建议,并指出有待研究的问题。
Nov, 2018
让人民参与进来:争夺基准机器学习数据集
研究了机器学习数据集背后的历史、价值观和规范,以及影响数据收集选择的价值观,并描述了机器学习中基准数据集的运作方式和为这些数据集提出的四个研究问题,从而更好地了解数据构建中的劳动,为研究人员提供新的争论途径。
Jul, 2020
垃圾输入,垃圾输出?社交计算机中的机器学习应用论文是否报道了人工标记训练数据的来源?
本文研究了在社交计算领域,针对 Twitter 数据执行 ML 分类任务,是否具有遵循模板的最佳实践方法,结果显示,大多数人都没有遵循规则,从而导致数据不可靠。
Dec, 2019
设计数据:机器学习的主动数据收集和迭代
通过将人机交互概念与机器学习技术相结合,我们提出了一种迭代、减少偏差的数据收集方法,包括计划、监测和熟悉数据三个环节,通过实验结果表明,该方法能够使训练出的模型更好地泛化各种群体,并且对于调试数据集非常有效。
Jan, 2023
研究机器学习数据:为什么我们要讨论偏见时,实际上我们是指的 “能力”?
该论文针对机器学习中的偏见问题,提出了 “权力感知视角” 的研究并分析数据质量、数据工作和数据文献等领域的因素,以反映数据设计和生产的社会背景。
Sep, 2021
CrowdWorkSheets: 基于个人和集体身份的众包数据集注释
本文调查了围绕众包数据集注释的伦理问题,深入探讨了注解者的背景对其注释的影响以及注解者与众包平台的关系所带来的影响,并提出了一种透明化关键决策点的数据注释框架 ——CrowdWorkSheets。
Jun, 2022
机器学习实践与基础设施
通过对 Stack Exchange 论坛上的问题进行实证研究,探讨了互动式计算平台在机器学习工作中的使用,及其对机器学习实践和系统开发的影响,这可能导致使机器学习生命周期中的某些方面变得不可见,这些方面对于已部署的机器学习系统的社会影响尤为重要,这也是 AI 伦理学家一直强调的。
Jul, 2023