Aug, 2023

论文蒸馏:探究NLP模型中偏见对仇恨言论检测的影响

TL;DR对自然语言处理模型中的偏见对仇恨言论检测任务的影响进行了研究,探讨了解释性、冒犯性刻板印象偏见和公平性三个方面。研究发现表明,除非我们开始将社会科学纳入对自然语言处理模型中的偏见的研究中,否则我们无法有效地克服对现有模型中的偏见的度量和减轻的限制。