ACLMay, 2020

降低仇恨言论检测中的种族偏见

TL;DR本文研究针对美国非裔英语的歧视在当前仇恨言论数据集中存在的问题,并提出对抗性训练的方法来降低该歧视,实验结果表明该方法可以显著降低美国非裔英语文本的误判率,而对于仇恨言论分类的表现影响很小。