掩盖语言模型和下游情感分类任务中对 93 个受污名化群体的偏见
通过对 93 个羞辱现象的分类和构建 QA 数据集来测试社会偏见扩大化对生成性语言模型的影响,发现这些模型生成的输出在很大程度上增加了对受羞辱群体的社会偏见,并且模板设计的选择和问题提示方式都会影响生成的社会偏见输出。
Dec, 2023
该研究通过评估六个主要的语言模型(BERT,RoBERTa,DistilBERT,BERT-multilingual,XLM-RoBERTa 和 DistilBERT-multilingual)并采用包含鼓励模型生成英语主题代词和要求模型返回与性别代词相关的动词、副词和形容词概率的提示来调查遮蔽语言模型中固有的偏见,尤其是性别偏见。分析结果显示所有模型存在性别刻板印象,而多语言变体的偏见相对较小。
Jan, 2024
通过使用迭代的蒙板实验测量变压器模型的预测质量,并评估多层语言模型对于劣势群体和优势群体的偏好,我们比较了两个基准数据集上的偏见估计结果,并发现在考虑的多层语言模型中具有相对较高的宗教和残疾偏见,而在一个数据集中相对较低的性别偏见。我们的测量方法在与人类注释者的一致性方面表现优于其他方法。我们通过评估在蒙版语言建模目标下重新训练多层语言模型后引入的社会偏见进行扩展,并发现我们提出的测量方法比其他方法更准确地估计了变压器之间具有偏见的句子的相对偏好。
Feb, 2024
通过提出多语种偏差评估模型(MBE)和手动创建的数据集对八种语言的语言模型进行评估,证实了所有这些语言中均存在针对性别相关的偏差,同时在日语和俄语中的手动创建的数据集与 MBE 评分存在显著相关性。
May, 2022
分析表明,尽管社会偏见存在于所有 MLMs 中,但大多数类型的社会偏见在时间上相对稳定(有几个例外)。进一步分析影响 MLMs 社会偏见的机制,我们发现在训练语料库中,某些人口群体(如男性)一直相对于其他人口群体(如女性)更受偏好。
Jun, 2024
在伦理和公平的领域中,现代大型语言模型 (Large Language Models,LLMs) 在破解很多最先进的基准测试中表现出色,该研究主要探讨 LLMs 在受保护群体偏见方面的行为,发现 LLMs 存在对性别、性取向和西方文化的偏见,并且模型不仅反映了社会偏见,而且似乎放大了这些偏见。尽管该模型对涉及受保护群体的问题过于谨慎,强调多样性和公平,但这种人工限制潜在有害输出的做法本身可能会造成伤害,应该谨慎和有控制地应用。
Mar, 2024
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
为了研究预训练遮蔽语言模型 (Masked Language Models) 的模型因素与所学习的社会偏见之间的关系,以及模型的下游任务性能,我们对 39 个不同模型大小、训练目标、分词方法、训练数据领域和语言进行了全面的研究。结果揭示了一些在先前文献中常被忽视的重要因素,如分词或模型目标。
Oct, 2023
调查发现现代语言模型存在基本的社会认同偏见,通过筛选训练数据可以减轻这些偏见。这些结果对于创建更少偏见的大型语言模型以及进一步研究用户与语言模型的互动以防止潜在的偏见加强具有实际意义。
Oct, 2023
本文利用自然语言生成中存在的偏见漏洞,探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整,该文评估了生成模型的偏见,并通过不同的人口属性来比较情感和毒性价值,从而揭示了各种模型的偏见类型和强度的差异。此外,本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。
Jun, 2023