Nov, 2023
Transformer-Based 语言模型注意力头中的偏见分析
Bias A-head? Analyzing Bias in Transformer-Based Language Model Attention Heads
Yi Yang, Hanyu Duan, Ahmed Abbasi, John P. Lalor, Kar Yan Tam
TL;DR通过对注意力头的偏见分析框架,发现预训练语言模型中存在有偏头部,这有助于对模型公正性进行评估和指导有效减轻策略的开发。对 BERT 模型和 GPT 模型的性别和种族偏见进行了广泛的实验研究,进一步理解了预训练语言模型中的偏见行为。