May, 2023

偏见 X:对含有社会隐含偏见的有害内容进行 “缓慢思考” 辅助管理

TL;DR引入 BiasX 框架,通过大规模的众包用户研究,探索使用自由文本解释内容中隐含的社会偏见,以有效增强内容审核设置,我们发现,参与者因正确识别微妙的(非)有毒内容而受益。解释的质量很关键,完美的机器生成解释(+2.4% 的有毒难题)帮助不如专业撰写的人类解释(+7.2%)。我们的结果展示了使用自由文本解释鼓励更加深思熟虑的毒性审核的承诺。