Sep, 2022

解释的力量:走向自动去偏见的仇恨言论检测

TL;DR本研究提出了一种自动的误用检测器,该检测器依赖于解释方法来检测潜在的偏见,并基于此构建了端到端的去偏扭框架,适用于文本分类器而无需任何外部资源。