ACLApr, 2022

性别去偏见对内部模型表示的影响及其重要性

TL;DR本文研究证明了在下游任务中模型性能和模型内部表示中的内在偏差之间的关系,并通过外部微调去除偏差,同时测量内在偏差,以评估其消除效果。通过两个任务和多种偏差度量的实验证明了内在偏差指标是评估去偏差效果的更佳指标,可以暴露浅表去偏差的情况,提供了一种更全面的 NLP 模型偏差研究框架和相关常用工具和资源。