CBBQ：一個由人工智能協作策劃的中文偏差測試數據集，供大型語言模型使用

Jun, 2023

CBBQ：一個由人工智能協作策劃的中文偏差測試數據集，供大型語言模型使用

CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI Collaboration for Large Language Models

Yufei Huang, Deyi Xiong

TL;DR本文提供一个超过 10 万个问题的中文偏见基准数据集，包括与中国文化和价值观相关的 14 个社会维度中的刻板印象和社会偏见，通过广泛文献综述、生成环境、AI 辅助去歧义生成、手动审核和重组等步骤，展示了数据集的广泛覆盖和高多样性，实验表明所有 10 个公开可用的中文大型语言模型在某些类别中存在强烈的偏见。

Abstract

Holistically measuring societal biases of large language models is crucial for detecting and reducing ethical risks in highly capable AI models. In this work, we present a Chinese Bias Benchmark dataset that cons

societal biases large language models chinese culture bias detection data set

发现论文，激发创造

KoBBQ：韩国问答偏见基准

通过利用英文 BBQ 数据集以适应文化方式构建非英文偏见基准数据集，本文提出了 KoBBQ 数据集用于评估韩语问答任务中的偏见，并通过将韩国文化相关性增强到韩国文化，补充了四个韩国文化特定偏见类别，并基于韩国文学创建了新样本。使用 KoBBQ 数据集，衡量了几种最先进的多语言语言模型的准确性和偏见评分，展示了韩语和英语中语言模型的偏见差异，进一步阐明了考虑文化差异需要手工制作的数据的必要性。

Jul, 2023

MBBQ: 一份为生成式语言模型的跨语言比较刻板印象而设的数据集

研究表明，生成性大型语言模型存在有害的偏见和刻板印象。该论文通过研究不同语言的社会刻板印象，控制文化差异和任务准确性，证实了非英语语言存在更多的偏见，并且观察到跨语言的偏见行为存在显著差异。

Jun, 2024

BBQ: 一个手工制作的问答偏见基准

该研究旨在通过提出一种基准数据集 —— 即 Bias Benchmark for QA（BBQ）来测试 NLP 模型的社会偏见。研究发现当上下文信息不充分时，模型通常依赖于固有的刻板印象，导致输出结果中仍存在有害偏见。同时，即便给出充分信息，模型依然受固有偏见的影响，在正确答案与社会偏见相冲突时的准确率差异可高达 5 个百分点。

Oct, 2021

日本大型语言模型中社会偏见分析

通过构建基于英文偏见基准 BBQ 的日语偏见基准数据集 JBBQ，并分析日本 LLM 的社会偏见，本研究发现，虽然当前的日本 LLM 通过指导调整提高了在 JBBQ 上的准确性，但其偏见程度却增加了。此外，通过在提示中加入关于社会偏见的警告，可以减轻某些模型中的偏见影响。

Jun, 2024

CHBias：中文对话语言模型的偏见评估与缓解

本文介绍了一个新的中文数据集 CHBias，用于对中文会话语言模型进行偏见评估和缓解。试验结果表明，使用该数据集的去偏执方法可以减少生成具有社会偏见的文本，同时保持模型的对话功能。

May, 2023

IndiBias: 用于测量印度语境下语言模型社会偏见的基准数据集

IndiBias 是一个专门为评估印度社会偏见而设计的全面基准数据集，它将现有的 CrowS-Pairs 数据集过滤和翻译成印地语，并利用 ChatGPT 和 InstructGPT 等大型语言模型增加了印度独特的社会偏见和刻板印象维度，同时还针对交叉偏见构建了相应的资源。该数据集包含 800 个过滤后的句子和用于不同人口统计的偏见测量元组，提供英语和印地语两种语言的版本，规模可与现有的基准数据集相媲美。通过使用 IndiBias，我们比较了十种不同的语言模型在多个偏见测量指标上的表现，发现语言模型在大多数交叉群体中表现出更多偏见。

Mar, 2024

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

KoSBI：减少社会偏见风险的数据集，以更安全的大型语言模型应用为目标

通过构建本土化社会偏见数据集，可以减少韩国大型语言模型的社会偏见，有效地保证其安全、可靠、有效地部署。

May, 2023

在综合描述符数据集中发现语言模型中的新偏见

本文介绍了一种全新的包含 13 个不同人口统计学轴线近 600 个描述符的、基于 HolisticBias 的更加包容性的偏差测量数据集，结合一组偏差测量模板产生超过 45 万个独特的句子提示，用于探索、识别和减少几个生成模型中的新型偏差。

May, 2022

VLBiasBench：大型视觉语言模型偏见评估综合基准测评

通过引入 VLBiasBench 数据集和进行广泛的评估，我们对大型视觉语言模型中的偏见进行了全面研究，并揭示了一些新的见解。

Jun, 2024