社会偏见探测:语言模型的公平性基准测试
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
该论文研究了预先训练的语言模型的偏见和公平性之间的关系,提出了关联偏见和实证公平性的区别,并通过实证结果展示二者之间可能独立存在,最后指出现有的社会学和心理学文献支持这些度量是不相关的。
Apr, 2023
大语言模型带来了强大的性能和发展前景,并广泛应用于现实世界。然而,这些模型可能从未经处理的训练数据中捕捉到社会偏见,并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究,介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法,并讨论了公平性发展中的挑战和未来方向。
Aug, 2023
调查表明,对于预训练语言模型的公平度和偏见进行度量的大量指标之间的比较以及使用这些指标进行评估的工作仍然困难,如果不是完全不可能的。建议避免基于嵌入的指标,并专注于下游任务中的公平度评估,以提高未来的公平度比较和评估。
Dec, 2021
本研究调查了多语言和非英文环境下公平性问题,并强调当前研究的不足之处及因英语环境限制所面临的挑战。作者认为,在构建公平性数据集方面,世界上众多多样化的文化和语言使得实现全面覆盖变得不可行,因此需超越当前仅仅集中在特定维度和类型偏见的数据集驱动方法,以便在不同的语言和文化间实现扩展。
Feb, 2023
评估和改善大型语言模型(LLMs)的公平性,通过使用不同的提示性数据集来测量社会偏见,对比模型之间的偏差和毒性度量,并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。
Nov, 2023
本文首次对基于预训练语言模型的度量方法中的社会偏见进行了系统研究,并发现相比传统度量方法,最受欢迎的基于预训练语言模型的度量方法在种族、性别、宗教、外貌、年龄和社会经济地位等 6 个敏感属性上显示出显著的社会偏向。此外,研究发现选择度量方法的范式比选择预训练语言模型对公平性的影响更大,我们提出了消除偏见的适配器方案,将其注入到预训练语言模型层中,从而减轻了基于预训练语言模型的度量方法的偏见,同时保持了评估文本生成的高性能。
Oct, 2022
通过使用划分群体公平性的全新层次模式,我们提出了对大型语言模型进行偏见评估的方法,并构建了一个跨多个维度的目标属性组合的数据集,GFair。此外,我们还引入了一项新的开放式文本生成任务来揭示大型语言模型中的复杂偏见。通过对流行的大型语言模型进行广泛评估,我们发现存在固有的安全问题。为了从群体公平性的角度减轻大型语言模型的偏见,我们首创了一种新的思维链 (GF-Think) 方法。实验结果表明,此方法在减轻大型语言模型中的偏见以实现公平性方面非常有效。
Dec, 2023
本研究介绍了一种四阶段的框架来直接评估大型语言模型(LLMs)生成的内容中的刻板印象和偏见,包括直接问询测试、序列或改编故事测试、隐含联想测试和未知情境测试。此外,本文提出了多维度评估指标和可解释的零样本提示用于自动评估。使用教育领域作为案例研究,我们按照这个四阶段框架构建了 Edu-FairBench,其中包含了 12632 个开放性问题,涵盖了九个敏感因素和 26 个教育场景。实验结果显示在 Edu-FairBench 上评估的五个 LLMs 存在不同程度的刻板印象和偏见。此外,我们提出的自动评估方法的结果与人工注释有很高的相关性。
Aug, 2023