迈向 “公正解释” 的概念化：针对内容审核员的反亚裔仇恨言论解释的不对称影响

EMNLPOct, 2023

迈向 “公正解释” 的概念化：针对内容审核员的反亚裔仇恨言论解释的不对称影响

Towards Conceptualization of "Fair Explanation": Disparate Impacts of anti-Asian Hate Speech Explanations on Content Moderators

PDF

Tin Nguyen, Jiannan Xu, Aayushi Roy, Hal Daumé III, Marine Carpuat

TL;DR最近在 AI 可解释性和公平性交叉领域的研究集中在解释如何提高人类加 AI 任务性能，以公平性指标评估。我们提出了对 “公平解释” 的特征进行表征，即不对特定人群产生负面影响的解释。我们提出了一种新颖的 “公平解释” 评估方法，不仅基于准确率和标签时间，还考虑了解释对不同用户群体的心理影响（心理不适，刻板印象激活和感知工作负荷）的多个指标。我们将该方法应用于潜在的仇恨言论的内容审查，以及其对亚洲和非亚洲代理审查员的差异影响，包括解释方法（显著性地图和反事实解释）。我们发现，显著性地图通常表现更好，显示出较少的不公平证据（群体和个体）比反事实解释。

Abstract

Recent research at the intersection of ai explainability and fairness has focused on how explanations can improve human-plus-AI task perfo

ai explainability fairness explanations psychological impact content moderation

发现论文，激发创造

人工智能决策中解释对公平性的影响：受保护特征与代理特征

AI 系统中的偏见可以通过解释来帮助人工智能团队应对这些偏见，提高决策公正性，但解释可能无法揭示间接偏见，需要通过模型偏见披露和代理特征相关性披露来改善模型公平性感知和决策公正性。

Oct, 2023

可解释性与仇恨言论：结构化解释提高社交媒体审核员的速度

通过研究，我们发现，结构化的解释能够降低现实世界的内容审查员的决策时间 7.4%，而通用解释对其速度没有影响且常被忽视。

Jun, 2024

人工智能决策中的解释、公平性和适当依赖

研究了基于 AI 解释和分布式公平性之间的关系，发现解释会影响公平感知，从而与人类对 AI 建议的依赖关系发生关联。该研究表明，基于特征的解释并不是改善分布式公正性的可靠机制。

Sep, 2022

解释模型：解释对公正评判的影响的经验研究

通过一项关于程序生成解释的实证研究，我们发现不同类型的解释如何影响人们对机器学习系统的公平判断，其中某些解释可增强人们对算法公正性的信心，但也有部分解释会被认为是不公平的，此外，不同类型的解释也能更有效地揭示不同的公平问题，因此我们讨论了提供个性化和自适应的解释来支持机器学习系统的公平判断。

Jan, 2019

采用以人为本的 AI 方法实现公平公正可解释 AI

本文探讨了机器学习中公平性、可解释性、人本主义、社会偏差等问题，并提出了一种以人为本的人工智能方法，以增强分类系统和单词嵌入的可解释性和公平性，通过 D-BIAS 等可视化工具识别和缓解社会偏见。

Jun, 2023

评估 GPT-3 生成的针对仇恨性内容审核的说明

本研究通过对使用大型语言模型对仇恨言论生成解释的分析框架的提出以及对 2400 位受访者的调查，发现生成的解释在语言流畅性、信息量、说服力和逻辑准确性方面都获得了高评价，但不同提示策略会影响解释的说服力，可能会导致对内容是否仇恨的错误判断。因此，在内容审核中应谨慎使用大型语言模型 - generated 的解释。

May, 2023

关于解释不公正现象的概述

算法公平性和可解释性是实现负责任人工智能的基本要素。本文关注它们之间的相互关系，即最近受到越来越多关注的研究领域。我们首先提出了两种综合分类法，分别代表了公平性和解释两个互补的研究领域。然后，我们将用于公平性的解释分为三种类型：（a）用于增强公平指标的解释，（b）用于帮助我们理解（不公平）原因的解释，以及（c）用于辅助我们设计缓解不公平性方法的解释。最后，基于我们的公平性和解释分类法，我们提供了未曾涉足的文献路径，揭示了可以作为未来研究宝贵见解的空白领域。

Feb, 2024

关于解释、公平感知和决策之间的关系

研究人员探讨了 AI 系统推荐错误或不公平的情况下，人工干预的必要性，并提供了关于解释、公平感知、依赖和分布公平性之间关系的理论框架，但文献并没有提供确凿证据证明解释在实践中实现了这种补充关系。

Apr, 2022

公正与可解释性之间的相互作用

建立可靠且值得信赖的自然语言处理应用程序，模型需要在不同人群之间既公平又可解释。本研究通过两个文本分类数据集进行实验证明，公平和可解释性并不总是相互影响的，因此需要同时考虑这两个目标，以获得更好的结果。

Oct, 2023

解释的力量：走向自动去偏见的仇恨言论检测

本研究提出了一种自动的误用检测器，该检测器依赖于解释方法来检测潜在的偏见，并基于此构建了端到端的去偏扭框架，适用于文本分类器而无需任何外部资源。

Sep, 2022