ACLJun, 2019

Transformer 模型中的注意力的多尺度可视化

TL;DR通过使用注意力机制,Transformer 模型不仅在性能上有所提升,同时还可通过可视化工具展示模型如何赋权于不同的输入元素,从而实现模型的解释和解读,本文提出了一种开源的基于多尺度可视化注意力机制的工具,并在 BERT 和 OpenAI GPT-2 上进行了演示,包括检测模型偏差、定位相关注意力头和链接神经元到模型行为等三个应用案例。