Aug, 2020

评估命名实体识别中的人口统计偏见

TL;DR通过合成语料库评估英文命名实体识别系统在不同人口群体中的偏差,结果表明模型更擅长识别两个数据集中特定人口群体的姓名,并且去偏向嵌入无法解决这个问题,最终结果表明基于字符的上下文词表示模型,例如 ELMo,跨人口群体的偏差最小。这项工作可以揭示由于在自动化知识库生成中系统性排除某些人口实体而导致的潜在偏见。