EMNLPSep, 2021

将残差和归一化层引入掩码语言模型分析中

TL;DR通过全面分析 Transformer 架构(多头注意力、残差连接和层归一化)来研究其性能表现,发现中间表示的交互通过注意力执行的作用比先前假定的要小,并提供了新的直观解释。