ACLDec, 2020

内在偏见度量与应用偏见无关

TL;DR本文比较了不同任务和实验条件下数百个已训练模型的内在和外在偏差度量标准之间的关系,发现这些度量标准在所有情况下都没有可靠的相关性。作者呼吁重点关注外在的偏差度量标准,并通过创建新的挑战集和注释测试数据使使用这些度量标准更加可行。在此基础上,作者发布了一份基于性别偏见的仇恨言论的代码、新的内部度量标准和一个注释的测试集。