ACLMar, 2021

通过字典学习实现 Transformer 可视化:上下文嵌入作为 Transformer 因子的线性叠加

TL;DR本文提出使用字典学习作为线性叠加的 Transformer 成分的可视化工具,以展示 Transformer 成分所捕捉到的分层语义结构,包括词级歧义消歧,句级模式形成和远距依赖。这些模式中有些证实了常规的语言学知识,而有些则相对出乎意料,可能提供新的见解。我们希望这个可视化工具能够带来更深入的知识和更好地理解 Transformer 网络的工作原理。