RuBia:俄语语言偏见检测数据集
IndiBias 是一个专门为评估印度社会偏见而设计的全面基准数据集,它将现有的 CrowS-Pairs 数据集过滤和翻译成印地语,并利用 ChatGPT 和 InstructGPT 等大型语言模型增加了印度独特的社会偏见和刻板印象维度,同时还针对交叉偏见构建了相应的资源。该数据集包含 800 个过滤后的句子和用于不同人口统计的偏见测量元组,提供英语和印地语两种语言的版本,规模可与现有的基准数据集相媲美。通过使用 IndiBias,我们比较了十种不同的语言模型在多个偏见测量指标上的表现,发现语言模型在大多数交叉群体中表现出更多偏见。
Mar, 2024
评估和改善大型语言模型(LLMs)的公平性,通过使用不同的提示性数据集来测量社会偏见,对比模型之间的偏差和毒性度量,并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。
Nov, 2023
本文提出了两种学习策略来训练神经模型,更加稳健,并且更能够迁移到域外的数据集。这些策略利用了数据集的偏差,通过 down-weighting 有偏差的例子,使基础模型减少对偏差的依赖。实验表明,我们的去偏差方法在所有设置中都显著提高了模型的稳健性,并且更好地迁移到其他文本蕴涵数据集上。
Sep, 2019
我们介绍了关于三种语言中偏见的新的大型标记数据集,并通过实验证明了在评估的 5 种语言中的 10 个数据集中都存在偏见,包括英语 GLUE/SuperGLUE 排行榜上的基准数据集。 我们使用 SotA 多语言预训练模型 mT5 和 mBERT 对这些数据集进行了基准测试。在 AI 和大型语言模型(LLMs)的最新事件中,基于偏见的社会偏见是无处不在的。受到这一挑战的驱使,我们开始估计多个数据集中的偏见。我们比较了一些最近的偏见指标,并使用具有度量解释性的 bipol。我们还通过使用 95%的置信水平和 7%的误差范围在有害评论的数据集群中随机抽取了 200 个样本,以确认没有经过验证的假设即偏向存在。 在 200 个样本中,有 30 个样本被随机分布以确保标注的质量。我们的研究结果确认了许多数据集存在男性偏见(对女性的偏见),除其他类型的偏见。我们公开发布了新的数据集、词典、模型和代码。
Apr, 2024
本研究旨在分析西斯拉夫语言模型中的性别偏见,通过评估单语和多语言模型的性别偏见情况以及生成词的有害程度和性别特征,发现针对男性的西斯拉夫语言模型生成的词较为有害,且与暴力,死亡和疾病有关系。
Apr, 2023
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023
通过寻找语法模式,我们在三个领域的语料库中发现了暗示刻板印象和非刻板印象的性别角色分配(例如女护士与男舞者),并发布了首个包含 108k 多样化英语句子的大规模性别偏见数据集,使用它来评估各种指代解析和机器翻译模型中的性别偏见,发现所有测试模型在处理自然输入时都倾向于过度依赖性别刻板印象。我们的数据集和模型都在 www.github.com/SLAB-NLP/BUG 上公开,希望它们能在实际环境中促进未来的性别偏见评估和缓解技术研究。
Sep, 2021
通过引入 VLBiasBench 数据集和进行广泛的评估,我们对大型视觉语言模型中的偏见进行了全面研究,并揭示了一些新的见解。
Jun, 2024