FairBench: 大型语言模型中检测刻板印象和偏见的四阶段自动框架

Aug, 2023

FairBench: 大型语言模型中检测刻板印象和偏见的四阶段自动框架

FairBench: A Four-Stage Automatic Framework for Detecting Stereotypes and Biases in Large Language Models

Yanhong Bai, Jiabao Zhao, Jinxin Shi, Tingjiang Wei, Xingjiao Wu...

TL;DR本研究介绍了一种四阶段的框架来直接评估大型语言模型（LLMs）生成的内容中的刻板印象和偏见，包括直接问询测试、序列或改编故事测试、隐含联想测试和未知情境测试。此外，本文提出了多维度评估指标和可解释的零样本提示用于自动评估。使用教育领域作为案例研究，我们按照这个四阶段框架构建了 Edu-FairBench，其中包含了 12632 个开放性问题，涵盖了九个敏感因素和 26 个教育场景。实验结果显示在 Edu-FairBench 上评估的五个 LLMs 存在不同程度的刻板印象和偏见。此外，我们提出的自动评估方法的结果与人工注释有很高的相关性。

Abstract

Detecting stereotypes and biases in large language models (LLMs) can enhance fairness and reduce adverse impacts on individuals or groups

stereotypes biases large language models evaluation metrics automated evaluation

发现论文，激发创造

FairMonitor：用于检测大型语言模型中的刻板印象和偏见的双重框架

使用 FairMonitor 框架，采用静态 - 动态检测方法对 LLMs 中的刻板印象和偏见进行全面评估。静态组件包括直接问询测试、隐含联想测试和未知情境测试，用于评估显性和隐性偏见。动态组件利用多智能体系统构建动态场景，检测复杂和现实设置中 LLMs 的细微偏见。实验结果表明，静态和动态方法的合作能够检测出更多 LLMs 中的刻板印象和偏见。

May, 2024

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

语言模型中对陈规的理解：朝着鲁棒度量和零 - shot 去偏见的方向

本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响，针对现有的评估技术和基准的准确性问题，提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了 GPT-3 的职业性别偏见，并提出了一些缓解这些偏见的提示技术。

Dec, 2022

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

GPTBIAS：评估大型语言模型中的偏差的综合框架

我们提出了一个名为 GPTBIAS 的偏见评估框架，它利用 LLMs 的高性能来评估模型的偏见，提供偏见分数以及包括偏见类型、受影响的人群、关键词和改进建议在内的详细信息，通过广泛的实验证明了该评估框架的有效性和可用性。

Dec, 2023

大规模语言模型的团体公平透视

通过使用划分群体公平性的全新层次模式，我们提出了对大型语言模型进行偏见评估的方法，并构建了一个跨多个维度的目标属性组合的数据集，GFair。此外，我们还引入了一项新的开放式文本生成任务来揭示大型语言模型中的复杂偏见。通过对流行的大型语言模型进行广泛评估，我们发现存在固有的安全问题。为了从群体公平性的角度减轻大型语言模型的偏见，我们首创了一种新的思维链 (GF-Think) 方法。实验结果表明，此方法在减轻大型语言模型中的偏见以实现公平性方面非常有效。

Dec, 2023

VLBiasBench：大型视觉语言模型偏见评估综合基准测评

通过引入 VLBiasBench 数据集和进行广泛的评估，我们对大型视觉语言模型中的偏见进行了全面研究，并揭示了一些新的见解。

Jun, 2024

面向大型语言模型的审计：提升基于文本的刻板印象检测

本研究介绍了一个多维度刻板印象数据集以及英文文本的新型刻板印象分类器，并通过多类别训练模型在多种可解释 AI 工具下展示出较好的性能，利用该模型评估了流行的 GPT 模型系列的刻板印象行为，并观察到刻板印象的减少，从而为 LLM 的刻板印象偏见审计和评估建立了一个稳健而实用的框架。

Nov, 2023

JobFair: 大规模语言模型中评估性别招聘偏见的框架

基于大型语言模型的层次性性别招聘偏见评估框架揭示了反向偏见和过度去偏见的重要问题。

Jun, 2024

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021