恶魔在神经元中：解释和减轻预训练语言模型中的社会偏见

Jun, 2024

恶魔在神经元中：解释和减轻预训练语言模型中的社会偏见

The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models

Yan Liu, Yu Liu, Xiaokang Chen, Pin-Yu Chen, Daoguang Zan...

TL;DR该论文提出了 "社会偏见神经元" 的概念，并介绍了一种能够精确定位和抑制与社会偏见相关的单元的方法，从而降低预训练语言模型中的社会偏见。该方法通过使用情感提示词激发与特定情感相关的敏感词和人口统计数据，通过测量其产生的偏差来定位并抑制造成不良行为的特定神经元。该模型在降低社会偏见的同时保持了较低的成本和良好的语言建模能力。

Abstract

pre-trained language models (PLMs) have been acknowledged to contain harmful information, such as social biases, which may cause negative social impacts or even bring catastrophic results in application. Previous

pre-trained language models social biases bias neurons ig2 bias neuron suppression

发现论文，激发创造

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

通过大规模语言模型揭示网络社区中的偏见

本文利用自然语言生成中存在的偏见漏洞，探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整，该文评估了生成模型的偏见，并通过不同的人口属性来比较情感和毒性价值，从而揭示了各种模型的偏见类型和强度的差异。此外，本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。

Jun, 2023

关于人际交往的话语：建模普遍的群体偏见和情感

本文提出了一种基于情绪的方法来预测人际群体关系（IGR），研究表明微妙的情感信号表明了不同的偏见，使用美国国会成员的推文数据集，构建了一个被标注为人际情感的数据集，证明神经模型在识别 IGR 上显著优于人类。我们还发现，IGR 和人际感知情感之间的共享编码可以提高两项任务的性能。

Sep, 2022

评估最近大型预训练模型中的社会偏见

研究旨在探讨最新的预训练模型中是否比旧模型更负责任地发展，以便降低固有的社会偏见以及探究三个最近的模型（ELECTRA，DeBERTa 和 DistilBERT）在减少偏见方面的总体趋势。实验比较这些模型与基准 BERT 的关联指标，并发现所有研究对象都存在有偏差，但完整指标相对于 BERT 有所提高。

Apr, 2023

第二次审视的偏见：对德国教育同行评审数据建模偏见的深入挖掘

本文基于德文语料库的数据集，在多个体系结构中通过词嵌入联想测试（WEAT）分析了预先训练的德语语言模型的偏见，发现这些语言模型存在实质性的概念、种族和性别偏见，并且在同伴评审数据的微调中，偏见在概念和种族轴上有显着变化。

Sep, 2022

通过遗忘减缓语言模型中的社会偏见

通过研究两种取消学习方法，本文在减少社会偏见时通过定量和定性分析实证表明，基于任务向量的否定方法在保持性能和困惑度较低的情况下优于分区对比梯度取消学习方法。在 LLaMA-27B 上，通过任务向量的否定方法将偏见分数降低了 11.8%。

Jun, 2024

视觉语言模型中的社会偏见调查

近年来，机器学习模型，特别是基于 Transformer 的预训练模型，对自然语言处理和计算机视觉领域产生了革命性的进展。然而，研究人员发现这些模型可能无意中捕捉和强化其训练数据集中存在的社会偏见，导致资源分配不平等和特定社会群体的不公平代表。解决这些偏见并确保人工智能系统的公平性已成为机器学习界关注的焦点。最近介绍的预训练视觉语言模型在新兴的多模态领域引起了人们对其中的社会偏见的关注。尽管视觉语言模型易受社会偏差影响，但对比自然语言处理和计算机视觉领域中广泛讨论的偏见而言，对此了解有限。本调查旨在向研究人员提供关于 NLP、CV 和 VL 领域中预训练模型社会偏见研究的高层次见解。通过检查这些观点，本调查旨在为单模态和多模态环境下如何应对和减轻社会偏见提供有价值的指导。本文所提供的结果和建议可使机器学习界受益，并促进在各种应用和研究努力中开发更加公平和无偏的人工智能模型。

Sep, 2023

生成式语言模型表现出社会身份偏见

调查发现现代语言模型存在基本的社会认同偏见，通过筛选训练数据可以减轻这些偏见。这些结果对于创建更少偏见的大型语言模型以及进一步研究用户与语言模型的互动以防止潜在的偏见加强具有实际意义。

Oct, 2023

语言模型中的语言无关偏见检测

本研究提出了一种名为 LABDet 的鲁棒的、语言无关的方法，用于评估 PLMs 中的社会偏见，且通过实验证明 LABDet 能展现国籍偏见，我们在六种语言上使用该方法，并验证了其可靠性和适用性。

May, 2023

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023