Sep, 2023

量化少数社会群体中偏见的数据集注解挑战

TL;DR最近人工智能方面的进展,包括高度复杂的大型语言模型(LLM)的发展,已在许多实际应用中证明其益处。然而,这些 LLM 中存在的固有偏见的证据引发了对公平性的担忧。作为回应,涉及偏见的研究增加了,包括量化偏见和开发去偏技术的研究。针对二元性别分类和道德 / 种族考虑,还开发了基准偏见数据集,主要关注美国人口统计信息。然而,在了解和量化与少数族裔社会有关的偏见方面几乎没有研究。受对用于量化少数族裔社会偏见的注释数据集缺乏的启发,我们努力为新西兰(NZ)人口创建基准数据集。然而,尽管有三名注释者的数据,我们在这个过程中面临了许多挑战。这项研究概述了手动注释过程,概述了我们遇到的挑战和所学到的教训,并提出了未来研究的建议。