IndiBias: 用于测量印度语境下语言模型社会偏见的基准数据集

Mar, 2024

IndiBias: 用于测量印度语境下语言模型社会偏见的基准数据集

IndiBias: A Benchmark Dataset to Measure Social Biases in Language Models for Indian Context

Nihar Ranjan Sahoo, Pranamya Prashant Kulkarni, Narjis Asad, Arif Ahmad, Tanu Goyal...

TL;DRIndiBias 是一个专门为评估印度社会偏见而设计的全面基准数据集，它将现有的 CrowS-Pairs 数据集过滤和翻译成印地语，并利用 ChatGPT 和 InstructGPT 等大型语言模型增加了印度独特的社会偏见和刻板印象维度，同时还针对交叉偏见构建了相应的资源。该数据集包含 800 个过滤后的句子和用于不同人口统计的偏见测量元组，提供英语和印地语两种语言的版本，规模可与现有的基准数据集相媲美。通过使用 IndiBias，我们比较了十种不同的语言模型在多个偏见测量指标上的表现，发现语言模型在大多数交叉群体中表现出更多偏见。

Abstract

The pervasive influence of social biases in language data has sparked the need for benchmark datasets that capture and evaluate these biases in Large language models (LLMs). Existing efforts predominantly focus o

social biases benchmark dataset indibias language models intersectional biases

发现论文，激发创造

针对印度语言表示的社交意识偏差测量

本篇论文探讨了语言表示法中出现的灌输的社会偏见，特别是针对印地语语言表示法中种姓和宗教相关的偏见。该研究展示了如何根据地区的历史和文化，将有着独特偏见的语言表示法区分开来，同时强调了当我们建模语言表示法时，必须关注文化和语言学因素以更好地理解文化偏见。

Oct, 2021

种姓主义但非种族主义？量化印度与西方大型语言模型偏见的差异

对大型语言模型的研究发现，它们往往存在社会偏见，尤其在印度和西方语境下，而引入一种称为 Instruction Prompting 的简单干预方法能够显著减少这种偏见。

Sep, 2023

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

全球之音、地方偏见：跨语言的社会文化偏见

这项研究通过对 24 种语言进行 Word Embedding Association Test (WEAT) 的扩展，以更广阔的研究视角揭示了语言模型的偏见，并通过在全球范围内捕捉有关每种语言的文化相关信息，进一步提高了数据的质量。文章还展示了对毒性、庸能主义等方面的新偏见维度的研究，并通过对印度六种常用语言进行了全面的地区偏见分析，最后通过对嵌入方法的广泛比较强调了这些社会偏见和新维度的重要性，同时强调了解决这些问题对建立更公平的语言模型的必要性。

Oct, 2023

预训练印度语言模型的高效性别去偏见

本文针对印度语言，量化职业中的性别偏见，并通过有效的微调方法减缓其中存在的偏见，以建立更公平的系统。

Sep, 2022

评估和减轻多语言环境中的性别偏见

这项研究探讨在多语言环境中评估和减少性别偏见在语言模型中的挑战，并通过 DisCo 扩展到不同的印度语言来创建了一个评估预训练屏蔽语言模型中性别偏见的基准，同时评估了各种方法对 SOTA 大规模多语言模型减轻此类偏见的有效性。

Jul, 2023

评估印地语 - 英语机器翻译中的性别偏见

本研究旨在评估和量化印地 - 英语机器翻译系统中的性别偏见，并实现了一种基于语法考虑的修改版本的现有 TGBI 度量标准，同时比较了预先训练的嵌入和我们的机器翻译模型所学习的嵌入的多个指标上产生的偏差测量结果。

Jun, 2021

在综合描述符数据集中发现语言模型中的新偏见

本文介绍了一种全新的包含 13 个不同人口统计学轴线近 600 个描述符的、基于 HolisticBias 的更加包容性的偏差测量数据集，结合一组偏差测量模板产生超过 45 万个独特的句子提示，用于探索、识别和减少几个生成模型中的新型偏差。

May, 2022

CBBQ：一個由人工智能協作策劃的中文偏差測試數據集，供大型語言模型使用

本文提供一个超过 10 万个问题的中文偏见基准数据集，包括与中国文化和价值观相关的 14 个社会维度中的刻板印象和社会偏见，通过广泛文献综述、生成环境、AI 辅助去歧义生成、手动审核和重组等步骤，展示了数据集的广泛覆盖和高多样性，实验表明所有 10 个公开可用的中文大型语言模型在某些类别中存在强烈的偏见。

Jun, 2023

IndicLLMSuite：针对印度语言创建预训练和微调数据集的蓝图

通过引入针对 Indic LLMs 开发的广泛资源套件，包括 22 种语言，总共有 251 亿词汇和 7480 万指令 - 响应对，我们的工作旨在弥合其他语言的类似模型建设进展受限于资源稀缺的差距。我们的方法结合了高度策划的手动验证数据、有价值但未验证的数据和合成数据，建立了一个干净的开源流水线，用于从各种来源收集预训练数据，并采用最佳实践进行爬取、清理、标记和去重。我们还通过生成多种情景的有毒提示来解决毒性对齐问题，并通过将这些有毒提示输入到经过校对的 LLaMa2 模型中生成非有毒响应。我们希望本工作释放的数据、工具和资源不仅能推动 Indic LLMs 的研究和开发，还能为将这种努力扩展到其他语言建立一个开源蓝图。作为本工作的一部分，创建的数据和其他文物都以宽松的许可证发布。

Mar, 2024