ACLAug, 2021

提高反事实生成以实现公正仇恨言论检测

TL;DR该研究探讨用于减少偏见的方法对具有社交群体令牌(SGT)的敏感特征的依赖,提高仪器在令牌之间的公平。在仇恨言论检测中,作者使用反事实公平并在反事实情况下等价预测,通过改变 SGTs 生成。这种方法通过对每个实例的限制反事实集上进行对数配对来提高公平性指标,同时保持对仇恨言论检测的模型性能。