观察监控者:基于云的内容审核服务的比较公平审计
机器学习(ML)基于内容审查工具对保持在线空间的免受仇恨性沟通至关重要。然而,ML 工具的能力仅取决于其所训练的数据的质量。虽然越来越多的证据表明它们在检测针对特定身份的仇恨性沟通方面表现不佳,并可能对其进行歧视,但我们对此类偏见的来源了解甚少。为了填补这一空白,我们对过去十年中引入的用于自动检测仇恨性沟通的数据集进行了系统回顾,并就数据集中所包含的个体身份质量进行了分析,这些身份是数据策划者关注的仇恨性沟通目标以及不经意间被包含在数据集中的身份。总体而言,我们发现了对选择的目标身份存在偏向的代表性和研究概念化和最终包含在数据集中的目标之间的不匹配。然而,通过将这些发现与数据集的语言和来源地背景进行联系,我们强调了这一研究领域向广泛化和多样化的积极趋势。
May, 2024
最近在 AI 可解释性和公平性交叉领域的研究集中在解释如何提高人类加 AI 任务性能,以公平性指标评估。我们提出了对 “公平解释” 的特征进行表征,即不对特定人群产生负面影响的解释。我们提出了一种新颖的 “公平解释” 评估方法,不仅基于准确率和标签时间,还考虑了解释对不同用户群体的心理影响(心理不适,刻板印象激活和感知工作负荷)的多个指标。我们将该方法应用于潜在的仇恨言论的内容审查,以及其对亚洲和非亚洲代理审查员的差异影响,包括解释方法(显著性地图和反事实解释)。我们发现,显著性地图通常表现更好,显示出较少的不公平证据(群体和个体)比反事实解释。
Oct, 2023
本研究通过对 AI 系统与基于规则需求的深度神经网络的行为进行案例研究,对内容审核软件进行测试,发现当前具有高失败率的现有模型,进一步提出了一种自动化方法通过精调 OpenAI 的大型语言模型来增强 HateModerate 数据集。
Jul, 2023
该论文从自动化方法和人工评估者两个重要角度研究社交网络内容管理,通过使用九个机器认证器在 92 百万条讨论美国政治议题的 YouTube 评论语料库上进行无声审核,介绍了一份独特的代理违法数据集,研究表明,社交媒体内容的管理具有高度主观性,并引发了关于内容管理实践的重要问题。
Jan, 2023
使用基于置信度的重新权重和对比正则化的方法,本研究提出了 HATE WATCH,这是一种弱监督因果分解的新型框架,可以绕过显式目标标签的需求,并有效地将输入特征分解为对仇恨言论具有不变性的表示。在两个带有目标标签和两个没有目标标签的平台上进行的实证验证将 HATE WATCH 定位为一种新的跨平台仇恨言论检测方法,并展现出卓越的性能。HATE WATCH 推动了可扩展的内容管理技术,以发展更加安全的在线社区。
Apr, 2024
通过考察自动检测和审查系统的最新发展以及训练数据集的成熟度,探讨了作者意图对于内容审查系统的重要性,并提出了改善自动检测和审查系统以符合道德和政策观念的策略性变革。
May, 2024
通过从人类反馈中学习,我们考虑在内容审查中公平性的设置,在比较两个评论时,人类反馈被用来确定如何处理涉及不同敏感属性组的评论。我们发现,与注释者的种族、年龄、政治立场、教育水平和 LGBTQ + 身份有关,公平偏好存在显著差异,并且文本中提到的人口统计学信息对用户感知个体公平性有着强烈影响。此外,我们发现在预测人类偏好的下游分类器中也存在差异。最后,我们观察到在给定相等权重的不同人口统计注释训练的集成模型中,针对不同人口统计交叉部分表现更好,相比于给每个注释相等权重的单个分类器。
Jun, 2024
本文解释了在线多媒体内容分析工具的能力和局限性,并强调了在不考虑其局限性的情况下大规模使用这些工具的潜在风险,重点是两种主要工具:匹配模型和预测模型。
Dec, 2021