MBBQ: 一份为生成式语言模型的跨语言比较刻板印象而设的数据集

Jun, 2024

MBBQ: 一份为生成式语言模型的跨语言比较刻板印象而设的数据集

MBBQ: A Dataset for Cross-Lingual Comparison of Stereotypes in Generative LLMs

Vera Neplenbroek, Arianna Bisazza, Raquel Fernández

TL;DR研究表明，生成性大型语言模型存在有害的偏见和刻板印象。该论文通过研究不同语言的社会刻板印象，控制文化差异和任务准确性，证实了非英语语言存在更多的偏见，并且观察到跨语言的偏见行为存在显著差异。

Abstract

generative large language models (LLMs) have been shown to exhibit harmful biases and stereotypes. While safety fine-tuning typically take

generative large language models biases stereotypes multilingual bias benchmark question-answering

发现论文，激发创造

KoBBQ：韩国问答偏见基准

通过利用英文 BBQ 数据集以适应文化方式构建非英文偏见基准数据集，本文提出了 KoBBQ 数据集用于评估韩语问答任务中的偏见，并通过将韩国文化相关性增强到韩国文化，补充了四个韩国文化特定偏见类别，并基于韩国文学创建了新样本。使用 KoBBQ 数据集，衡量了几种最先进的多语言语言模型的准确性和偏见评分，展示了韩语和英语中语言模型的偏见差异，进一步阐明了考虑文化差异需要手工制作的数据的必要性。

Jul, 2023

CBBQ：一個由人工智能協作策劃的中文偏差測試數據集，供大型語言模型使用

本文提供一个超过 10 万个问题的中文偏见基准数据集，包括与中国文化和价值观相关的 14 个社会维度中的刻板印象和社会偏见，通过广泛文献综述、生成环境、AI 辅助去歧义生成、手动审核和重组等步骤，展示了数据集的广泛覆盖和高多样性，实验表明所有 10 个公开可用的中文大型语言模型在某些类别中存在强烈的偏见。

Jun, 2023

BBQ: 一个手工制作的问答偏见基准

该研究旨在通过提出一种基准数据集 —— 即 Bias Benchmark for QA（BBQ）来测试 NLP 模型的社会偏见。研究发现当上下文信息不充分时，模型通常依赖于固有的刻板印象，导致输出结果中仍存在有害偏见。同时，即便给出充分信息，模型依然受固有偏见的影响，在正确答案与社会偏见相冲突时的准确率差异可高达 5 个百分点。

Oct, 2021

日本大型语言模型中社会偏见分析

通过构建基于英文偏见基准 BBQ 的日语偏见基准数据集 JBBQ，并分析日本 LLM 的社会偏见，本研究发现，虽然当前的日本 LLM 通过指导调整提高了在 JBBQ 上的准确性，但其偏见程度却增加了。此外，通过在提示中加入关于社会偏见的警告，可以减轻某些模型中的偏见影响。

Jun, 2024

SeeGULL 多语言：一个地理文化背景下定位的刻板印象数据集

使用 LLM 生成多种语言模型的方法，结合文化验证，建立全球规模的多语言社会刻板印象数据集，包含超过 20 种语言中的 25,000 个刻板印象，并且通过人工注释来显示其在模型评估中的差距。

Mar, 2024

种姓主义但非种族主义？量化印度与西方大型语言模型偏见的差异

对大型语言模型的研究发现，它们往往存在社会偏见，尤其在印度和西方语境下，而引入一种称为 Instruction Prompting 的简单干预方法能够显著减少这种偏见。

Sep, 2023

不同语言中的典型偏见有多大差异？

通过系统地分析使用不同语言、单语和多语模型、不同架构的偏向性，扩展了评估预训练英语语言模型中的刻板偏见的研究范围，发现在多语言环境下分析是非常重要的，并且公布了代码库以及翻译数据集的实用指南以鼓励将我们的工作进一步扩展到其他语言。

Jul, 2023

多语言遮蔽语言模型中的性别偏见

通过提出多语种偏差评估模型（MBE）和手动创建的数据集对八种语言的语言模型进行评估，证实了所有这些语言中均存在针对性别相关的偏差，同时在日语和俄语中的手动创建的数据集与 MBE 评分存在显著相关性。

May, 2022

增强基于文本的刻板印象检测和基于探针的偏见评估的大型语言模型审计

大规模语言模型在人工智能应用领域有显著的进展，但存在刻板输出的问题。本研究介绍了多维度刻板模式数据集，探索了基于不同机器学习方法的刻板模式检测基线，通过调整语言模型架构和大小，构建了英文文本的一系列刻板模式分类器模型，并使用可解释性人工智能工具进行验证和分析。在生成文本任务中，使用优秀的刻板模式检测器评估了流行大规模语言模型的刻板模式存在程度，并得出了多个关键发现。

Apr, 2024

多模态偏见：在视觉语言模型中引入一个能评估除性别和种族以外刻板印象的框架

本文提出了一个名为 MMBias 的基准数据集，用于评估自我监督多模态模型中的偏差，并介绍了一种旨在缓解偏差的去偏置方法。

Mar, 2023