数据标注中的权力动态：主观性与强加性之间

Jul, 2020

数据标注中的权力动态：主观性与强加性之间

Between Subjectivity and Imposition: Power Dynamics in Data Annotation for Computer Vision

Milagros Miceli, Martin Schuessler, Tianling Yang

TL;DR本文探讨机器学习中的数据注释实践，包括数据注释的定义和其对标签的意义进行赋予的过程。作者对注释公司进行了田野调查，分析了结构、权力关系和自然化规定是如何影响数据的解释的。结果表明，在注释工作中，标签通常是从其他具有更高权力、其他利益、价值和优先事项的人员那里产生的。这个发现指出，数据的解释过程涉及到多个人员和社会的权力问题。

Abstract

The interpretation of data is fundamental to machine learning. This paper investigates practices of image data annotation as performed in industrial contexts. We define →

data annotation machine learning power relations naturalized impositions biased labels

发现论文，激发创造

主观 NLP 任务的两种对比数据注释范式

本研究提出使用描述性和规范性两种策略来标注数据，探讨了两种策略的优劣，并且借助仇恨言论数据的标注实验来说明两种策略的不同。

Dec, 2021

纪律与标签：关于数据标注的 WEIRD 系谱与社会理论

数据标注是机器学习和人工智能的必要条件。最近的实证工作开始强调评分者的多样性对公平性和模型性能的重要性，并开始研究数据标注工作者的工作条件、标注人主观性对标签的影响以及标注工作的潜在心理危害。本文概述了数据标注的关键历史，并结合对上世纪 70 年代计算机实验心理学批判的相似性，质疑这些实验是否能够将结果推广到实验室以外的环境。我们指出心理学过于依赖西方、受过教育、工业化、富裕和民主社会（WEIRD）的参与者。然而，许多数据标注平台工作者并不来自 WEIRD 国家，而是来自全球南方国家。非 WEIRD 的标注人通过指导和任务受到 WEIRD 国家的社会分类和分类的强加，并通过这些分类对数据进行使用，在 WEIRD 国家中用于训练或评估人工智能模型。我们综合了几个最近的研究线索的证据，认为数据标注是一种自动化的社会分类，可能会使过时和静态的社会分类得到巩固，而这些分类在现实中是动态和变化的。我们提出了一个框架，以理解数据标注的全球社会条件与数据标注工作的主观现象之间的相互作用。

Feb, 2024

关于发布数据集中的标注者层次标签和信息

本文探讨了通过众包方式进行 NLP 数据集标注时，标注者之间的社会文化背景和个体经验差异可能导致的标签汇总引入了代表性偏差，并提高了数据集透明度和实用性的建议。

Oct, 2021

谁的真实？考虑个体和集合身份的数据集标注

本文调查了众包数据集标注的伦理考虑，提出了 ML 数据管道各阶段的一系列推荐和考虑因素。

Dec, 2021

面向主观多任务自然语言处理问题的基于模型的数据获取

通过新的基于模型的方法，我们提出了一种在多任务场景中为每个文本选择逐个注释的任务的方式，从而最大程度地减少注释数量，并且几乎不损失知识，同时还强调了根据注释任务的主观性收集多样化数据以有效训练模型的需求，并通过在单任务和多任务场景中评估模型来衡量主观任务之间的关系，此外，对于某些数据集，仅依靠我们模型预测的标签进行训练，可作为自监督学习规范化技术，提高任务选择的效率。

Dec, 2023

透视者的范式转变：对捕捉人工标签的假设和挑战

对于机器学习中的数据标注，多年来一直采用从多个标注者那里收集和汇总标签的方法。然而，当标注者不一致时，我们应该怎么办呢？尽管长期以来，标注者的不一致被视为需要最小化的问题，但新的观点主义方法质疑这一假设，将不一致视为宝贵的信息源。本文中，我们研究了有关标注者不一致的实践和假设，一些是受观点主义方法的挑战，一些是待解决的问题，以及基于这些假设进行工作的实际和规范性挑战。我们最后提出了对数据标注流程的建议，并探索与主观性和不一致性有关的未来研究方向。

May, 2024

预测计算中朝向透视主义矫正的转变

本文阐述 “数据透视主义” 的概念，提出通过采取人类主体在机器学习过程中所涉及到的知识表达方法，来代替传统的黄金标准数据集。文章探讨了如何在实践中采用透视主义态度来解决主观和客观机器学习任务的问题，并提出相关建议和研究议程。

Sep, 2021

数据有效性的重要性

研究数据注释的工作，特别关注计数或量化在组织注释工作中的作用。基于对印度两个外包中心的数据注释的民族志研究，观察到计数实践及其关联逻辑是日常注释活动的一个重要组成部分。提出计数制度的镜头，明确支持注释广泛的计数所依赖的特定计数、实践、参与者和结构。发现在人工智能供应链和数据工作中，计数制度有助于人工智能客户（也称为请求者）对注释过程的权威主张，使其变得简化、标准化和同质化。通过这些影响，说明了在全面可计算的逻辑下操作的局限性，并提出将计数视为局部化、由具体利益塑造且仅在有限程度上可追溯的观点。据此，提出了对计数和数据注释的基本不同取向的舞台设定。

Nov, 2023

数据视角统一和个性化：社会规范应用

本文针对社交媒体上的冲突话题，研究了如何利用个性化方法对 13k 个标注者进行标注，比较了该方法在预测社交规范感知方面的有效性，并对不同关系下的社会情境的性能进行了分析。

Oct, 2022

跨多元社群中有毒评论识别的主观建模（通过模仿标注者注释）

在线毒性讨论的普及和影响使内容管理至关重要。自动化系统在识别有毒评论和减少对人工管理的依赖方面起着至关重要的作用。然而，识别多样化社区的有毒评论仍然存在挑战，本研究对此进行了探讨。

Nov, 2023