Feb, 2023

前馈模块控制遮蔽语言模型中的语境化

TL;DR通过对 Transformer 模型内部结构的分析,探讨了每个组件对文本语境化的作用,实验发现每个组件都对不同程度的语境化产生了影响,并且有些组件的作用相互抵消,更新了我们关于 Transformer 层各个组件作用的常见认识。