Mar, 2023

Transformer 如何学习主题结构:迈向机制理解

TL;DR本文研究 transformers 学习的机制和语义结构,揭示了 embedding 层和 self-attention 层如何编码语义结构,具体表现为同主题单词之间的嵌入内积和自注意力相对较高。