EMNLPOct, 2023

迈向 “公正解释” 的概念化:针对内容审核员的反亚裔仇恨言论解释的不对称影响

TL;DR最近在 AI 可解释性和公平性交叉领域的研究集中在解释如何提高人类加 AI 任务性能,以公平性指标评估。我们提出了对 “公平解释” 的特征进行表征,即不对特定人群产生负面影响的解释。我们提出了一种新颖的 “公平解释” 评估方法,不仅基于准确率和标签时间,还考虑了解释对不同用户群体的心理影响(心理不适,刻板印象激活和感知工作负荷)的多个指标。我们将该方法应用于潜在的仇恨言论的内容审查,以及其对亚洲和非亚洲代理审查员的差异影响,包括解释方法(显著性地图和反事实解释)。我们发现,显著性地图通常表现更好,显示出较少的不公平证据(群体和个体)比反事实解释。