EMNLPSep, 2019

Transformer 模型中表示形式的自下而上演化:机器翻译和语言建模目标研究

TL;DR本文研究不同学习目标下深度神经网络中单个标记的表现形式和学习的特征空间结构如何在各层之间演变,通过经典相关性分析和互信息估计研究信息如何在 Transformer 的不同层之间流动,并说明此流程如何取决于学习目标的选择。