酷儿人是人,首先是人:解构大型语言模型中的性取向刻板印象
本文探究大型语言模型(LLMs)(如BERT)中是否存在反对酷儿和跨性别者的偏见,并提出一种通过对酷儿社区撰写或关于酷儿社区的数据对模型进行微调以减少这些偏差的方法。通过引入新的基准数据集WinoQueer,我们发现BERT存在明显的反同性恋偏见,但是通过在LGBTQ+成员编写的自然语言语料库上进行微调,这种偏见可以得到大部分缓解。
Jun, 2022
WinoQueer是一个针对衡量大型语言模型是否存在有害LGBTQ+社区的偏见的基准,该论文通过社区调查来确定偏见审核基准。基准测试了多个热门LLM模型,发现开箱即用的模型通常存在相当大的反同偏见。最后,我们展示了LLM对边缘化社区的偏见可以通过微调社区成员编写的数据来得到缓解,而社交媒体文本比非成员编写的新闻文本更有效。
Jun, 2023
语言作为一种强大的工具,用于展示社会信仰体系,同时也延续了我们社会中普遍存在的偏见。性别偏见是我们社会中最普遍的偏见之一,在线和离线话语中都有所体现。随着语言模型越来越接近人类的流利程度,我们需要深入了解这些系统可能产生的偏见。先前的研究通常将性别偏见视为二元分类任务。然而,我们认识到偏见必须按照相对的尺度来感知,因此我们研究了各种程度偏见的生成和相关性质,并调查了手动注释者对这些偏见的接受程度。具体来说,我们创建了第一个带有性别偏见的GPT生成英文文本数据集,并使用最佳-最差比例进行了权威评级以获得相对评估的度量。接下来,我们系统分析了观察到的排名中性别偏见主题的变化,并显示了攻击身份是与性别偏见最相关的。最后,我们展示了现有模型在我们的数据集上训练的相关概念上的性能。
Oct, 2023
该论文提出了一种使用印度语LGBTI+词汇表评估大型语言模型的方法,通过四个步骤:确定与期望行为相关的自然语言处理任务,创建用于测试语言模型的提示,使用语言模型获得输出,并进行手动评估。通过定性分析,我们发现我们实验的三个语言模型无法检测到潜在的仇恨内容,并且在使用机器翻译评估非英语语言的自然语言理解方面存在局限性。该论文提出的方法对其他语言的LGBTI+词汇表以及其他领域专用词表都有用处。这篇论文的研究工作为大型语言模型的负责任行为开辟了道路,如在LGBTI+社区的普遍社会认知背景下所示。
Oct, 2023
大型语言模型的性别偏见评估涉及大量预定义的性别相关短语和性别刻板印象,而这些短语和刻板印象的全面收集具有挑战性且限制于显性偏见评估。本文提出了一种无需预定义性别短语和刻板印象的条件文本生成机制,通过三种不同策略生成的三种类型的输入来检测大型语言模型中的显性和隐性性别偏见。我们还使用显性和隐性评估指标来评估不同策略下大型语言模型中的性别偏见。实验证明,模型规模的增加并不一定会提高公平性,所有测试的大型语言模型都表现出显性和/或隐性性别偏见,即使输入中没有显性性别刻板印象。
Nov, 2023
在伦理和公平的领域中,现代大型语言模型(Large Language Models,LLMs)在破解很多最先进的基准测试中表现出色,该研究主要探讨LLMs在受保护群体偏见方面的行为,发现LLMs存在对性别、性取向和西方文化的偏见,并且模型不仅反映了社会偏见,而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎,强调多样性和公平,但这种人工限制潜在有害输出的做法本身可能会造成伤害,应该谨慎和有控制地应用。
Mar, 2024
通过使用我们的新评估框架QueerBench,本文评估了英语大语言模型(LLMs)生成的句子完成对LGBTQIA+个体可能造成的潜在危害,并表明大型语言模型在对LGBTQIA+社群中的个体表现出更频繁的歧视行为,使得QueerBench有害性得分在7.2%的差距内增加。
Jun, 2024
本研究分析了开源大型语言模型(LLMs)在性别、宗教和种族上的偏见,填补了现有研究在偏见检测方法上的空白。采用七种偏见触发器生成偏见检测数据集,并通过对比分析不同模型的产生的文本偏见,发现LLMs在不同群体间表现出强烈的极化现象,而语言的切换则引发了各种变异与异常,揭示了文化和语境对偏见表现的影响。
Oct, 2024