观察监控者：基于云的内容审核服务的比较公平审计

Jun, 2024

观察监控者：基于云的内容审核服务的比较公平审计

Watching the Watchers: A Comparative Fairness Audit of Cloud-based Content Moderation Services

David Hartmann, Amin Oueslati, Dimitri Staufer

TL;DR通过第三方审计，系统评估了四个主要的云端内容审核服务，发现在依赖这些服务时可能对少数族群和弱势群体产生偏见。研究发现服务在察觉隐性仇恨言论方面存在困难，并指出有必要消除特定群体的偏见。

Abstract

Online platforms face the challenge of moderating an ever-increasing volume of content, including harmful hate speech. In the absence of clear legal definitions and a lack of transparency regarding the role of algorithms in shaping decisions on content moderation, there is a critical need for external accountability. Our study contributes to filling this gap

content moderation services cloud-based biases hate speech detection group-specific bias

发现论文，激发创造

仇恨传播数据集的系统综述中的未被察觉的目标

机器学习（ML）基于内容审查工具对保持在线空间的免受仇恨性沟通至关重要。然而，ML 工具的能力仅取决于其所训练的数据的质量。虽然越来越多的证据表明它们在检测针对特定身份的仇恨性沟通方面表现不佳，并可能对其进行歧视，但我们对此类偏见的来源了解甚少。为了填补这一空白，我们对过去十年中引入的用于自动检测仇恨性沟通的数据集进行了系统回顾，并就数据集中所包含的个体身份质量进行了分析，这些身份是数据策划者关注的仇恨性沟通目标以及不经意间被包含在数据集中的身份。总体而言，我们发现了对选择的目标身份存在偏向的代表性和研究概念化和最终包含在数据集中的目标之间的不匹配。然而，通过将这些发现与数据集的语言和来源地背景进行联系，我们强调了这一研究领域向广泛化和多样化的积极趋势。

May, 2024

像教练，像机器人？算法内容审查中的偏见传承

通过在不同的人口子集上进行注释的文本上训练分类器来衡量算法内容调节系统的规范偏见。

Jul, 2017

迈向 “公正解释” 的概念化：针对内容审核员的反亚裔仇恨言论解释的不对称影响

最近在 AI 可解释性和公平性交叉领域的研究集中在解释如何提高人类加 AI 任务性能，以公平性指标评估。我们提出了对 “公平解释” 的特征进行表征，即不对特定人群产生负面影响的解释。我们提出了一种新颖的 “公平解释” 评估方法，不仅基于准确率和标签时间，还考虑了解释对不同用户群体的心理影响（心理不适，刻板印象激活和感知工作负荷）的多个指标。我们将该方法应用于潜在的仇恨言论的内容审查，以及其对亚洲和非亚洲代理审查员的差异影响，包括解释方法（显著性地图和反事实解释）。我们发现，显著性地图通常表现更好，显示出较少的不公平证据（群体和个体）比反事实解释。

Oct, 2023

谁来保护版主？众包图像审核案例分析

本文研究通过模糊图片，减少内容审核员将受精神和情感损伤的私人数据泄露给他们。

Apr, 2018

针对政策的仇恨言论测试

本研究通过对 AI 系统与基于规则需求的深度神经网络的行为进行案例研究，对内容审核软件进行测试，发现当前具有高失败率的现有模型，进一步提出了一种自动化方法通过精调 OpenAI 的大型语言模型来增强 HateModerate 数据集。

Jul, 2023

攻击性言论分类器的替代性攻击和噪声审计

该论文从自动化方法和人工评估者两个重要角度研究社交网络内容管理，通过使用九个机器认证器在 92 百万条讨论美国政治议题的 YouTube 评论语料库上进行无声审核，介绍了一份独特的代理违法数据集，研究表明，社交媒体内容的管理具有高度主观性，并引发了关于内容管理实践的重要问题。

Jan, 2023

弱监督因果解离下的跨平台仇恨言论检测

使用基于置信度的重新权重和对比正则化的方法，本研究提出了 HATE WATCH，这是一种弱监督因果分解的新型框架，可以绕过显式目标标签的需求，并有效地将输入特征分解为对仇恨言论具有不变性的表示。在两个带有目标标签和两个没有目标标签的平台上进行的实证验证将 HATE WATCH 定位为一种新的跨平台仇恨言论检测方法，并展现出卓越的性能。HATE WATCH 推动了可扩展的内容管理技术，以发展更加安全的在线社区。

Apr, 2024

社交媒体内容算法化审核中被忽视的意图角色

通过考察自动检测和审查系统的最新发展以及训练数据集的成熟度，探讨了作者意图对于内容审查系统的重要性，并提出了改善自动检测和审查系统以符合道德和政策观念的策略性变革。

May, 2024

谁的偏好？公平偏好的差异及其对利用人类反馈的人工智能公平性的影响

通过从人类反馈中学习，我们考虑在内容审查中公平性的设置，在比较两个评论时，人类反馈被用来确定如何处理涉及不同敏感属性组的评论。我们发现，与注释者的种族、年龄、政治立场、教育水平和 LGBTQ + 身份有关，公平偏好存在显著差异，并且文本中提到的人口统计学信息对用户感知个体公平性有着强烈影响。此外，我们发现在预测人类偏好的下游分类器中也存在差异。最后，我们观察到在给定相等权重的不同人口统计注释训练的集成模型中，针对不同人口统计交叉部分表现更好，相比于给每个注释相等权重的单个分类器。

Jun, 2024

自动化多媒体内容分析的能力与局限性研究

本文解释了在线多媒体内容分析工具的能力和局限性，并强调了在不考虑其局限性的情况下大规模使用这些工具的潜在风险，重点是两种主要工具：匹配模型和预测模型。

Dec, 2021