Nov, 2020

BERT 的视野有多远:基于距离的聚类和注意力分析

TL;DR通过无监督聚类,我们明确将注意力热图聚类为显著不同的模式,并进一步通过分析研究了它们的对应功能,此外,我们提出的特征可以用于解释和校准 Transformer 模型中的不同注意头。