Sep, 2021

为指代消解和机器翻译收集大规模性别偏置数据集

TL;DR通过寻找语法模式,我们在三个领域的语料库中发现了暗示刻板印象和非刻板印象的性别角色分配(例如女护士与男舞者),并发布了首个包含108k多样化英语句子的大规模性别偏见数据集,使用它来评估各种指代解析和机器翻译模型中的性别偏见,发现所有测试模型在处理自然输入时都倾向于过度依赖性别刻板印象。我们的数据集和模型都在www.github.com/SLAB-NLP/BUG上公开,希望它们能在实际环境中促进未来的性别偏见评估和缓解技术研究。