ICMLApr, 2022

Transformer 模型的概率解释

TL;DR提出 transformers 的注意力子层是 Hopfield 注意力理论中的 log-sum-exp 项的梯度上升步骤,这导致了点的并行扩展,而又被层标准化所抵消的基于指数族的对比学习的概率解释