ACLMar, 2021
通过字典学习实现 Transformer 可视化:上下文嵌入作为 Transformer 因子的线性叠加
Transformer visualization via dictionary learning: contextualized embedding as a linear superposition of transformer factors
Zeyu Yun, Yubei Chen, Bruno A Olshausen, Yann LeCun
TL;DR本文提出使用字典学习作为线性叠加的 Transformer 成分的可视化工具,以展示 Transformer 成分所捕捉到的分层语义结构,包括词级歧义消歧,句级模式形成和远距依赖。这些模式中有些证实了常规的语言学知识,而有些则相对出乎意料,可能提供新的见解。我们希望这个可视化工具能够带来更深入的知识和更好地理解 Transformer 网络的工作原理。