Transformer-Based 语言模型注意力头中的偏见分析

Nov, 2023

Transformer-Based 语言模型注意力头中的偏见分析

Bias A-head? Analyzing Bias in Transformer-Based Language Model Attention Heads

Yi Yang, Hanyu Duan, Ahmed Abbasi, John P. Lalor, Kar Yan Tam

TL;DR通过对注意力头的偏见分析框架，发现预训练语言模型中存在有偏头部，这有助于对模型公正性进行评估和指导有效减轻策略的开发。对 BERT 模型和 GPT 模型的性别和种族偏见进行了广泛的实验研究，进一步理解了预训练语言模型中的偏见行为。

Abstract

transformer-based pretrained large language models (PLM) such as BERT and GPT have achieved remarkable success in NLP tasks. However, PLMs are prone to encoding stereotypical biases. Although a burgeoning literat

transformer-based pretrained large language models stereotypical biases attention heads model fairness bias behavior

发现论文，激发创造

BERT 和 DistilBERT 中导致性别偏见的结构研究

基于大型 Transformer 预训练语言模型（PLM）的研究已经改变了自然语言处理（NLP）领域，但这种性能提升伴随着复杂性的增加，以及模型规模的限制。本文通过对两个问题的实证研究探索了 BERT 和 DistilBERT 中性别偏见的神经机制和蒸馏过程对性别偏见的影响，发现无法确定特定的层次产生偏见，除少数特定情况外，每一个注意力头都均匀地编码偏见，而蒸馏模型则更均衡地产生偏见。

Jan, 2024

公平感知的 Transformer 结构剪枝

通过研究注意力头对大型语言模型的公平性和性能的影响，提出一种修剪注意力头的全新方法，能减少性别偏见约 19％至 39.5％，而性能仅稍微下降。

Dec, 2023

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

Transformer 语言模型处理预测头中的词频

本研究调查了预测头的内部工作，特别关注偏差参数，并发现 BERT 和 GPT-2 模型中的预测头偏差对模型反映语料库中的词频有重要作用，可通过对偏差的控制在实践自回归文本生成场景下生成更多样化的文本。

May, 2023

探究使用运动修剪在预训练基于 Transformer 的语言模型中的性别偏见

本研究提出了一种通过运动剪枝实现检查预训练变压器语言模型中偏差的方法，并使用性别偏见作为案例来验证方法。

Jul, 2022

多语言神经机器翻译模型是否包含特定于语言的注意力头？

通过对 NMT 模型的多个语言对进行实验，本文发现在自我关注和编码器解码器注意头方面的注意力头是对于特定的语言对的翻译比其他更加具有特定性，可以通过指标去评估其注意力权重的一些方面，同时还可以通过评估注意力头相对于翻译质量的重要性来对其进行系统排名，并发现最重要的注意力头在各种语言对中非常相似且几乎可以删除不那么重要的注意头而不严重影响翻译质量。

May, 2021

识别并调整英语语言模型中负责性别偏见的 Transformer 组件

研究探讨了三种方法来识别语言模型组件与特定输出之间的因果关系，通过对 GPT-2 进行参数有效的微调，成功减轻性别偏见，同时对整体语言建模造成的损害较小。

Oct, 2023

缓解神经机器翻译中注意力头不平等

本篇论文研究表明 Transformer 中的注意力头并不相等，为解决这个问题，提出了 HeadMask 方法，在多个语言对中实现了翻译改进。

Sep, 2020

不同语言中的典型偏见有多大差异？

通过系统地分析使用不同语言、单语和多语模型、不同架构的偏向性，扩展了评估预训练英语语言模型中的刻板偏见的研究范围，发现在多语言环境下分析是非常重要的，并且公布了代码库以及翻译数据集的实用指南以鼓励将我们的工作进一步扩展到其他语言。

Jul, 2023

分析多头自注意力：专门的头部承担重任，其余部分可被剪枝

研究了 Transformer 模型中的多头自注意力和编码器在神经机器翻译中的贡献和作用，提出了一种基于随机门和可微松弛 L0 正则化的新型剪枝方法，在不严重影响性能的情况下，成功删除了大部分注意头。

May, 2019