RuBia：俄语语言偏见检测数据集

COLINGMar, 2024

RuBia: A Russian Language Bias Detection Dataset

Veronika Grigoreva, Anastasiia Ivanova, Ilseyar Alimova, Ekaterina Artemova

TL;DR本文介绍了一种针对俄语的偏见检测数据集 RuBia，该数据集包含四个领域：性别、国籍、社会经济地位和多元，用于评估最先进的 LLMs 在社会偏见方面的倾向性。

Abstract

Warning: this work contains upsetting or disturbing content. large language models (LLMs) tend to learn the social and cultural biases present in the raw pre-training data. To test if an LLM's behavior is fair, functional datasets are employed, and due to their purpose, these datasets

large language models bias detection dataset russian language stereotype diagnostic evaluation

发现论文，激发创造

IndiBias: 用于测量印度语境下语言模型社会偏见的基准数据集

IndiBias 是一个专门为评估印度社会偏见而设计的全面基准数据集，它将现有的 CrowS-Pairs 数据集过滤和翻译成印地语，并利用 ChatGPT 和 InstructGPT 等大型语言模型增加了印度独特的社会偏见和刻板印象维度，同时还针对交叉偏见构建了相应的资源。该数据集包含 800 个过滤后的句子和用于不同人口统计的偏见测量元组，提供英语和印地语两种语言的版本，规模可与现有的基准数据集相媲美。通过使用 IndiBias，我们比较了十种不同的语言模型在多个偏见测量指标上的表现，发现语言模型在大多数交叉群体中表现出更多偏见。

Mar, 2024

主题分类的单 / 跨语言知识迁移

通过研究 RuQTopics 数据集中的知识转移情况，本文证明了该数据集非常适合用于实际对话任务，在多语言 BERT 上进行训练可以带来更好的结果。

Jun, 2023

KoSBI：减少社会偏见风险的数据集，以更安全的大型语言模型应用为目标

通过构建本土化社会偏见数据集，可以减少韩国大型语言模型的社会偏见，有效地保证其安全、可靠、有效地部署。

May, 2023

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023

通过建模语料库中的偏见进行端到端偏见缓解

本文提出了两种学习策略来训练神经模型，更加稳健，并且更能够迁移到域外的数据集。这些策略利用了数据集的偏差，通过 down-weighting 有偏差的例子，使基础模型减少对偏差的依赖。实验表明，我们的去偏差方法在所有设置中都显著提高了模型的稳健性，并且更好地迁移到其他文本蕴涵数据集上。

Sep, 2019

Bipol 下的数据偏差：男性天生右派，女性的角色是跟随他们的领导

我们介绍了关于三种语言中偏见的新的大型标记数据集，并通过实验证明了在评估的 5 种语言中的 10 个数据集中都存在偏见，包括英语 GLUE/SuperGLUE 排行榜上的基准数据集。我们使用 SotA 多语言预训练模型 mT5 和 mBERT 对这些数据集进行了基准测试。在 AI 和大型语言模型（LLMs）的最新事件中，基于偏见的社会偏见是无处不在的。受到这一挑战的驱使，我们开始估计多个数据集中的偏见。我们比较了一些最近的偏见指标，并使用具有度量解释性的 bipol。我们还通过使用 95％的置信水平和 7％的误差范围在有害评论的数据集群中随机抽取了 200 个样本，以确认没有经过验证的假设即偏向存在。在 200 个样本中，有 30 个样本被随机分布以确保标注的质量。我们的研究结果确认了许多数据集存在男性偏见（对女性的偏见），除其他类型的偏见。我们公开发布了新的数据集、词典、模型和代码。

Apr, 2024

西斯拉夫语言模型中性别偏见的测量

本研究旨在分析西斯拉夫语言模型中的性别偏见，通过评估单语和多语言模型的性别偏见情况以及生成词的有害程度和性别特征，发现针对男性的西斯拉夫语言模型生成的词较为有害，且与暴力，死亡和疾病有关系。

Apr, 2023

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

为指代消解和机器翻译收集大规模性别偏置数据集

通过寻找语法模式，我们在三个领域的语料库中发现了暗示刻板印象和非刻板印象的性别角色分配（例如女护士与男舞者），并发布了首个包含 108k 多样化英语句子的大规模性别偏见数据集，使用它来评估各种指代解析和机器翻译模型中的性别偏见，发现所有测试模型在处理自然输入时都倾向于过度依赖性别刻板印象。我们的数据集和模型都在 www.github.com/SLAB-NLP/BUG 上公开，希望它们能在实际环境中促进未来的性别偏见评估和缓解技术研究。

Sep, 2021

VLBiasBench：大型视觉语言模型偏见评估综合基准测评

通过引入 VLBiasBench 数据集和进行广泛的评估，我们对大型视觉语言模型中的偏见进行了全面研究，并揭示了一些新的见解。

Jun, 2024