ACLAug, 2021
预训练语言模型在有毒文本分类中的公平性可能存在差异
Your fairness may vary: Pretrained language model fairness in toxic text classification
Ioana Baldini, Dennis Wei, Karthikeyan Natesan Ramamurthy, Mikhail Yurochkin, Moninder Singh
TL;DR本研究分析了不同大小的预训练语言模型在两个有毒文本分类任务上的公平性,发现仅关注准确性度量可能会导致具有广泛公平特性变化的模型。我们发现,尽管文献中有所声称,但公平变化很少与模型大小有关。为了提高模型的公平性,该研究表明可以成功地将适用于结构化表格数据的两种后处理方法应用于各种预训练语言模型中。