COLINGSep, 2022

量化攻击性语言分类器的地理表现差异

TL;DR研究发现,在不同的语言和方言中,文本分类器存在偏见。本文介绍了一个新的数据集 GeoOLID,以及基于该数据集进行的地域相关内容以及其对模型性能差异的完整分析。研究表明,当前模型不能跨位置推广,并且尽管针对非洲裔美国英语的攻击语言模型会引起虚假警报,但是模型性能与每个城市的少数族裔人口比例没有相关性。