纪律与标签：关于数据标注的 WEIRD 系谱与社会理论

Feb, 2024

纪律与标签：关于数据标注的 WEIRD 系谱与社会理论

Discipline and Label: A WEIRD Genealogy and Social Theory of Data Annotation

Andrew Smart, Ding Wang, Ellis Monk, Mark Díaz, Atoosa Kasirzadeh...

TL;DR数据标注是机器学习和人工智能的必要条件。最近的实证工作开始强调评分者的多样性对公平性和模型性能的重要性，并开始研究数据标注工作者的工作条件、标注人主观性对标签的影响以及标注工作的潜在心理危害。本文概述了数据标注的关键历史，并结合对上世纪 70 年代计算机实验心理学批判的相似性，质疑这些实验是否能够将结果推广到实验室以外的环境。我们指出心理学过于依赖西方、受过教育、工业化、富裕和民主社会（WEIRD）的参与者。然而，许多数据标注平台工作者并不来自 WEIRD 国家，而是来自全球南方国家。非 WEIRD 的标注人通过指导和任务受到 WEIRD 国家的社会分类和分类的强加，并通过这些分类对数据进行使用，在 WEIRD 国家中用于训练或评估人工智能模型。我们综合了几个最近的研究线索的证据，认为数据标注是一种自动化的社会分类，可能会使过时和静态的社会分类得到巩固，而这些分类在现实中是动态和变化的。我们提出了一个框架，以理解数据标注的全球社会条件与数据标注工作的主观现象之间的相互作用。

Abstract

data annotation remains the sine qua non of machine learning and AI. Recent empirical work on data annotation has begun to highlight the importance of →

data annotation rater diversity annotator subjectivity psychological harms automated social categorization

发现论文，激发创造

数据标注中的权力动态：主观性与强加性之间

本文探讨机器学习中的数据注释实践，包括数据注释的定义和其对标签的意义进行赋予的过程。作者对注释公司进行了田野调查，分析了结构、权力关系和自然化规定是如何影响数据的解释的。结果表明，在注释工作中，标签通常是从其他具有更高权力、其他利益、价值和优先事项的人员那里产生的。这个发现指出，数据的解释过程涉及到多个人员和社会的权力问题。

Jul, 2020

CrowdWorkSheets: 基于个人和集体身份的众包数据集注释

本文调查了围绕众包数据集注释的伦理问题，深入探讨了注解者的背景对其注释的影响以及注解者与众包平台的关系所带来的影响，并提出了一种透明化关键决策点的数据注释框架 ——CrowdWorkSheets。

Jun, 2022

谁的真实？考虑个体和集合身份的数据集标注

本文调查了众包数据集标注的伦理考虑，提出了 ML 数据管道各阶段的一系列推荐和考虑因素。

Dec, 2021

D3CODE: 跨文化数据中的冒犯性检测与评估中的差异分析

通过广泛的平行标注来考虑不同社会和文化群体的道德价值观，在跨文化数据集中揭示了标注者感知的区域差异，为构建包容性、具有文化敏感性的自然语言处理模型提供了关键见解。

Apr, 2024

数据视角统一和个性化：社会规范应用

本文针对社交媒体上的冲突话题，研究了如何利用个性化方法对 13k 个标注者进行标注，比较了该方法在预测社交规范感知方面的有效性，并对不同关系下的社会情境的性能进行了分析。

Oct, 2022

主观 NLP 任务的两种对比数据注释范式

本研究提出使用描述性和规范性两种策略来标注数据，探讨了两种策略的优劣，并且借助仇恨言论数据的标注实验来说明两种策略的不同。

Dec, 2021

我们在模拟任务还是模拟标注者？—— 自然语言理解数据集中标注者倾向的研究

本文通过实验展示了人群智力数据集在自然语言理解中的存在问题和缺陷，建议在数据集创建过程中监控注释者的偏见，测试集注释者应该与训练集注释者无交集。

Aug, 2019

人工智能数据丰富化的伦理模棱两可性：评估研究伦理规范和实践中的差距

本研究探讨人工智能领域的伦理规范问题，发现虽然现有的一些 AI 会议和出版物已经开始确立人类数据收集的协议和规范，但是这些规范往往被作者忽视，相比之下，在心理学领域进行与众包工人的合作时，生活方式和其他信息的道德审查披露要频繁得多。

Jun, 2023

关于发布数据集中的标注者层次标签和信息

本文探讨了通过众包方式进行 NLP 数据集标注时，标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差，并提高了数据集透明度和实用性的建议。

Oct, 2021

西方、受教育、工业化、富裕和民主的社交计算研究程度如何？

社交计算、偏见、WEIRD 人口、数据集来源、研究包容性。

Jun, 2024