AAAIJan, 2021

Heads 假设:一种统一的统计方法,用于理解 BERT 中的多头注意力

TL;DR提出一种新的方法,通过假设检验来形式化简单而有效的分数,从而分类定位 transformer-based model 的 attention heads 中的不同角色,可以更准确地回答一些有关 BERT 模型的问题,如多种功能角色在同一 attention head 中的共存,attention heads 在不同层之间的分布以及特定 NLP 任务对这些功能角色的影响。