档案馆的教训：机器学习中收集社会文化数据的策略

Dec, 2019

Lessons from Archives: Strategies for Collecting Sociocultural Data in Machine Learning

Eun Seo Jo, Timnit Gebru

TL;DR本文强调数据收集是机器学习中一个被忽视的环节，社会文化机器学习可以从档案馆中汲取数据收集方法的经验，以此提高数据收集的公正性、透明度等方面。

Abstract

A growing body of work shows that many problems in fairness, accountability, transparency, and ethics in →

发现论文，激发创造

调查报告探讨机器学习和自然语言处理领域中数据收集的现状和挑战，特别关注数据获取、标注和模型优化三个方面，提供技术选择建议，并指出有待研究的问题。

Nov, 2018

研究了机器学习数据集背后的历史、价值观和规范，以及影响数据收集选择的价值观，并描述了机器学习中基准数据集的运作方式和为这些数据集提出的四个研究问题，从而更好地了解数据构建中的劳动，为研究人员提供新的争论途径。

Jul, 2020

本文综述了在机器学习中收集和使用数据的许多问题和担忧，并提倡通过更谨慎和深入的数据理解来解决实践和伦理问题。

Dec, 2020

本文调查了众包数据集标注的伦理考虑，提出了 ML 数据管道各阶段的一系列推荐和考虑因素。

Dec, 2021

本文研究了在社交计算领域，针对 Twitter 数据执行 ML 分类任务，是否具有遵循模板的最佳实践方法，结果显示，大多数人都没有遵循规则，从而导致数据不可靠。

Dec, 2019

博物馆体验为建立具有社会包容性方法的人工智能提供有用的教训，尤其是在需要策划或过滤收藏和访问时，应实行文化谦虚，考虑相关方存在的背景信息.

May, 2022

通过将人机交互概念与机器学习技术相结合，我们提出了一种迭代、减少偏差的数据收集方法，包括计划、监测和熟悉数据三个环节，通过实验结果表明，该方法能够使训练出的模型更好地泛化各种群体，并且对于调试数据集非常有效。

Jan, 2023

该论文针对机器学习中的偏见问题，提出了 “权力感知视角” 的研究并分析数据质量、数据工作和数据文献等领域的因素，以反映数据设计和生产的社会背景。

Sep, 2021

本文调查了围绕众包数据集注释的伦理问题，深入探讨了注解者的背景对其注释的影响以及注解者与众包平台的关系所带来的影响，并提出了一种透明化关键决策点的数据注释框架 ——CrowdWorkSheets。

Jun, 2022

通过对 Stack Exchange 论坛上的问题进行实证研究，探讨了互动式计算平台在机器学习工作中的使用，及其对机器学习实践和系统开发的影响，这可能导致使机器学习生命周期中的某些方面变得不可见，这些方面对于已部署的机器学习系统的社会影响尤为重要，这也是 AI 伦理学家一直强调的。

Jul, 2023