FairMonitor：用于检测大型语言模型中的刻板印象和偏见的双重框架

May, 2024

FairMonitor：用于检测大型语言模型中的刻板印象和偏见的双重框架

FairMonitor: A Dual-framework for Detecting Stereotypes and Biases in Large Language Models

Yanhong Bai, Jiabao Zhao, Jinxin Shi, Zhentao Xie, Xingjiao Wu...

TL;DR使用 FairMonitor 框架，采用静态 - 动态检测方法对 LLMs 中的刻板印象和偏见进行全面评估。静态组件包括直接问询测试、隐含联想测试和未知情境测试，用于评估显性和隐性偏见。动态组件利用多智能体系统构建动态场景，检测复杂和现实设置中 LLMs 的细微偏见。实验结果表明，静态和动态方法的合作能够检测出更多 LLMs 中的刻板印象和偏见。

Abstract

detecting stereotypes and biases in large language models (LLMs) is crucial for enhancing fairness and reducing adverse impacts on individ

detecting stereotypes biases large language models fairmonitor framework static-dynamic detection method

发现论文，激发创造

FairBench: 大型语言模型中检测刻板印象和偏见的四阶段自动框架

本研究介绍了一种四阶段的框架来直接评估大型语言模型（LLMs）生成的内容中的刻板印象和偏见，包括直接问询测试、序列或改编故事测试、隐含联想测试和未知情境测试。此外，本文提出了多维度评估指标和可解释的零样本提示用于自动评估。使用教育领域作为案例研究，我们按照这个四阶段框架构建了 Edu-FairBench，其中包含了 12632 个开放性问题，涵盖了九个敏感因素和 26 个教育场景。实验结果显示在 Edu-FairBench 上评估的五个 LLMs 存在不同程度的刻板印象和偏见。此外，我们提出的自动评估方法的结果与人工注释有很高的相关性。

Aug, 2023

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

增强基于文本的刻板印象检测和基于探针的偏见评估的大型语言模型审计

大规模语言模型在人工智能应用领域有显著的进展，但存在刻板输出的问题。本研究介绍了多维度刻板模式数据集，探索了基于不同机器学习方法的刻板模式检测基线，通过调整语言模型架构和大小，构建了英文文本的一系列刻板模式分类器模型，并使用可解释性人工智能工具进行验证和分析。在生成文本任务中，使用优秀的刻板模式检测器评估了流行大规模语言模型的刻板模式存在程度，并得出了多个关键发现。

Apr, 2024

重新评估语言模型中的偏倚检测：隐含规范的作用

大型语言模型的偏见在量化偏见时可能会导致模板式偏见探测的误导性影响。

Apr, 2024

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

在显式无偏的大型语言模型中测量隐性偏见

通过心理学启发的 LLM 暗示联想测试偏差和 LLM 决策偏差等两项偏差测量方法，揭示了大规模语言模型中普遍存在的人类化刻板印象偏差，以及对决策任务中的微妙歧视进行检测。

Feb, 2024

面向大型语言模型的审计：提升基于文本的刻板印象检测

本研究介绍了一个多维度刻板印象数据集以及英文文本的新型刻板印象分类器，并通过多类别训练模型在多种可解释 AI 工具下展示出较好的性能，利用该模型评估了流行的 GPT 模型系列的刻板印象行为，并观察到刻板印象的减少，从而为 LLM 的刻板印象偏见审计和评估建立了一个稳健而实用的框架。

Nov, 2023

LLMs 中性别偏见的揭示与减轻

大语言模型可以生成具有偏见的回答。然而，先前的直接探测技术包含性别提及或预定义的性别刻板印象，这些很难全面收集。因此，我们提出了一种基于条件生成的间接探测框架，旨在诱使大语言模型揭示其性别偏见，即使没有显式的性别或刻板印象提及。我们探索了三种不同的策略来揭示大语言模型中的显式和隐式性别偏见。我们的实验证明，所有经过测试的大语言模型都表现出显式和 / 或隐式的性别偏见，即使输入中没有性别刻板印象。此外，模型大小的增加或模型对齐会放大大多数情况下的偏见。此外，我们通过超参数调整、指导性指导和去偏调整这三种方法来研究大语言模型中的偏见缓解。值得注意的是，即使没有显式的性别或刻板印象，这些方法也被证明是有效的。

Feb, 2024

大型语言模型中的内部知识偏差发现

通过引入一种全新的、纯粹基于提示的方法，本文揭示和分析大型语言模型中隐藏的社会偏见，为提高自然语言处理系统的透明度和促进公平性做出了贡献。

Oct, 2023

大型语言模型公平性调研

大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Aug, 2023