SeeGULL 多语言：一个地理文化背景下定位的刻板印象数据集

Mar, 2024

SeeGULL 多语言：一个地理文化背景下定位的刻板印象数据集

SeeGULL Multilingual: a Dataset of Geo-Culturally Situated Stereotypes

Mukul Bhutani, Kevin Robinson, Vinodkumar Prabhakaran, Shachi Dave, Sunipa Dev

TL;DR使用 LLM 生成多种语言模型的方法，结合文化验证，建立全球规模的多语言社会刻板印象数据集，包含超过 20 种语言中的 25,000 个刻板印象，并且通过人工注释来显示其在模型评估中的差距。

Abstract

While generative multilingual models are rapidly being deployed, their safety and fairness evaluations are largely limited to resources collected in English. This is especially problematic for evaluations targeting inherently →

generative multilingual models safety and fairness evaluations socio-cultural phenomena multi-lingual resources social stereotypes

发现论文，激发创造

SeeGULL：一种利用生成模型实现广泛地域文化覆盖的刻板印象基准

本研究旨在解决现有数据集只包含西方社会陈规模式以及规模和覆盖范围有限的问题，提出了一种使用大型语言模型 (PaLM 和 GPT-3) 和全球多元化评估来构建广泛覆盖的关于 178 个国家、8 个地缘政治地区以及 6 个大洲各个群体陈规的数据集 SeeGULL，并展示了该数据集的应用，包括陈规分析以及全球差异。

May, 2023

增强基于文本的刻板印象检测和基于探针的偏见评估的大型语言模型审计

大规模语言模型在人工智能应用领域有显著的进展，但存在刻板输出的问题。本研究介绍了多维度刻板模式数据集，探索了基于不同机器学习方法的刻板模式检测基线，通过调整语言模型架构和大小，构建了英文文本的一系列刻板模式分类器模型，并使用可解释性人工智能工具进行验证和分析。在生成文本任务中，使用优秀的刻板模式检测器评估了流行大规模语言模型的刻板模式存在程度，并得出了多个关键发现。

Apr, 2024

使用社区参与建立社会文化包容的刻板印象资源

通过扩展印度社会背景下的评估资源，本研究对生成语言模型的评估进行了社会文化意识的拓展，特别关注了刻板印象的有害性，并通过建立包含印度特有身份不平等轴上刻板印象的资源，增加了对印度背景下刻板印象的了解。

Jul, 2023

GeniL：一个关于语言泛化的多语言数据集

通过构建多语言数据集 GeniL，我们介绍了检测语言中概括化的新任务，其对多样的上下文进行了可靠区分，从而有助于深入理解刻板印象的永久化，这是实现更包容、负责任的语言技术的关键一步。

Apr, 2024

多语言大型语言模型人类刻板印象泄漏跨语言边界

多语种大型语言模型中存在刻板印象的泄漏现象，表现为正面、负面和非极性关联在所有语言中都存在，尤其是对印地语敏感度最大，而中文敏感度最小；此外，ChatGPT 与人类评分更加匹配。

Dec, 2023

超越表面：文本到图像生成中的全球尺度视觉刻板分析

通过使用现有的文字资源来评估 T2I 模型生成的图像中的地缘文化刻板印象，我们的研究表明在与其他属性相比，特定身份群体的图像中刻板印象出现的可能性是其他属性的三倍，并揭示出所有身份群体的默认代表都具有刻板印象的外观。

Jan, 2024

不同语言中的典型偏见有多大差异？

通过系统地分析使用不同语言、单语和多语模型、不同架构的偏向性，扩展了评估预训练英语语言模型中的刻板偏见的研究范围，发现在多语言环境下分析是非常重要的，并且公布了代码库以及翻译数据集的实用指南以鼓励将我们的工作进一步扩展到其他语言。

Jul, 2023

MBBQ: 一份为生成式语言模型的跨语言比较刻板印象而设的数据集

研究表明，生成性大型语言模型存在有害的偏见和刻板印象。该论文通过研究不同语言的社会刻板印象，控制文化差异和任务准确性，证实了非英语语言存在更多的偏见，并且观察到跨语言的偏见行为存在显著差异。

Jun, 2024

面向大型语言模型的审计：提升基于文本的刻板印象检测

本研究介绍了一个多维度刻板印象数据集以及英文文本的新型刻板印象分类器，并通过多类别训练模型在多种可解释 AI 工具下展示出较好的性能，利用该模型评估了流行的 GPT 模型系列的刻板印象行为，并观察到刻板印象的减少，从而为 LLM 的刻板印象偏见审计和评估建立了一个稳健而实用的框架。

Nov, 2023

StereoKG: 基于数据驱动的文化知识与刻板印象知识图谱构建

本研究介绍了一种数据驱动的生成文化知识和刻板印象知识图谱的全流程，并进行了评估和训练，提高了模型的文化认知和对抗仇恨言论检测的性能。

May, 2022