Jun, 2023

标注员人口统计学何时重要?通过 POPQUORN 数据集衡量标注员人口统计学影响

TL;DR通过 POPQUORN 数据集的分析,本文发现标注者的背景对于数据标注有显著影响,而标注者的教育水平等背景因素在 NLP 中的应用更应予以重视,因此在数据标注中考虑标注者的背景并从具有人口学平衡的众包工人中收集标签信息是减轻数据集偏差的重要方法。