量化少数社会群体中偏见的数据集注解挑战

Sep, 2023

量化少数社会群体中偏见的数据集注解挑战

Challenges in Annotating Datasets to Quantify Bias in Under-represented Society

Vithya Yogarajan, Gillian Dobbie, Timothy Pistotti, Joshua Bensemann, Kobe Knowles

TL;DR最近人工智能方面的进展，包括高度复杂的大型语言模型（LLM）的发展，已在许多实际应用中证明其益处。然而，这些 LLM 中存在的固有偏见的证据引发了对公平性的担忧。作为回应，涉及偏见的研究增加了，包括量化偏见和开发去偏技术的研究。针对二元性别分类和道德 / 种族考虑，还开发了基准偏见数据集，主要关注美国人口统计信息。然而，在了解和量化与少数族裔社会有关的偏见方面几乎没有研究。受对用于量化少数族裔社会偏见的注释数据集缺乏的启发，我们努力为新西兰（NZ）人口创建基准数据集。然而，尽管有三名注释者的数据，我们在这个过程中面临了许多挑战。这项研究概述了手动注释过程，概述了我们遇到的挑战和所学到的教训，并提出了未来研究的建议。

Abstract

Recent advances in artificial intelligence, including the development of highly sophisticated large language models (LLM), have proven beneficial in many real-world applications. However, evidence of inherent

artificial intelligence bias language models benchmark datasets new zealand population

发现论文，激发创造

解决预训练语言模型中的偏见：当前趋势和被忽视的社会群体

预训练语言模型在当前和未来的创新中的好处和能力对任何社会都至关重要，然而，引入和使用语言模型会带来偏见和歧视，引发对平等、多样性和公平的关切，并需要解决。这项研究通过综述综合分析了识别和减轻语言模型中偏见的当前趋势和限制的技术，其中有关减轻偏见的方法的概述被分为度量指标、基准数据集和减轻策略。该调查的重要性和新颖性在于探讨了被忽视的社会的视角，我们认为当前处理偏见问题的做法不能简单地 “插入” 以解决被忽视的社会的需求。我们使用新西兰的例子提出了采用现有技术来适应被忽视的社会的要求。

Dec, 2023

未经筛选的图像 - 文本数据集：揭示人口特征偏见

我们研究了在视觉和语言模型训练中使用大型未筛选数据集的不公平表现，以及如何应对这个问题，研究发现社会偏见在图像生成、图像描述和图像文本嵌入等视觉语言任务中都是一个持续而普遍的问题。

Apr, 2023

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

重点关注 ' 受限行业 ', 通过自动化数据集增强和偏见量化来减少大型语言模型的偏见

通过指定的数据集增强机制，我们提出了一种新颖的自动去偏执方法，应用于在‘受限行业’中使用有限数据情况下的偏执制造者，并额外创建了 mb-index 和 db-index 两种指标，以量化由内在模型架构和数据集引起的偏见。

Mar, 2024

让人民参与进来：争夺基准机器学习数据集

研究了机器学习数据集背后的历史、价值观和规范，以及影响数据收集选择的价值观，并描述了机器学习中基准数据集的运作方式和为这些数据集提出的四个研究问题，从而更好地了解数据构建中的劳动，为研究人员提供新的争论途径。

Jul, 2020

重新评估语言模型中的偏倚检测：隐含规范的作用

大型语言模型的偏见在量化偏见时可能会导致模板式偏见探测的误导性影响。

Apr, 2024

Bipol 下的数据偏差：男性天生右派，女性的角色是跟随他们的领导

我们介绍了关于三种语言中偏见的新的大型标记数据集，并通过实验证明了在评估的 5 种语言中的 10 个数据集中都存在偏见，包括英语 GLUE/SuperGLUE 排行榜上的基准数据集。我们使用 SotA 多语言预训练模型 mT5 和 mBERT 对这些数据集进行了基准测试。在 AI 和大型语言模型（LLMs）的最新事件中，基于偏见的社会偏见是无处不在的。受到这一挑战的驱使，我们开始估计多个数据集中的偏见。我们比较了一些最近的偏见指标，并使用具有度量解释性的 bipol。我们还通过使用 95％的置信水平和 7％的误差范围在有害评论的数据集群中随机抽取了 200 个样本，以确认没有经过验证的假设即偏向存在。在 200 个样本中，有 30 个样本被随机分布以确保标注的质量。我们的研究结果确认了许多数据集存在男性偏见（对女性的偏见），除其他类型的偏见。我们公开发布了新的数据集、词典、模型和代码。

Apr, 2024

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

评估和减轻多语言环境中的性别偏见

这项研究探讨在多语言环境中评估和减少性别偏见在语言模型中的挑战，并通过 DisCo 扩展到不同的印度语言来创建了一个评估预训练屏蔽语言模型中性别偏见的基准，同时评估了各种方法对 SOTA 大规模多语言模型减轻此类偏见的有效性。

Jul, 2023

种姓主义但非种族主义？量化印度与西方大型语言模型偏见的差异

对大型语言模型的研究发现，它们往往存在社会偏见，尤其在印度和西方语境下，而引入一种称为 Instruction Prompting 的简单干预方法能够显著减少这种偏见。

Sep, 2023