Mar, 2023

防止注意力熵崩塌以稳定 Transformer 训练

TL;DR本文通过追踪每层 Transformer 中 attention head 的注意熵来检验其训练动态。作者提出了一个名为 entropy collapse 的现象,即低的注意熵伴随着高的训练不稳定性,提出了一种简单高效的解决方案 sigma Reparam 可以避免这种现象,并进一步证明了注意熵的下限。作者在图像分类、自监督学习、机器翻译、自动语音识别和语言建模任务中测试了 sigma Reparam,在各种 Transformer 结构中均能提供更稳定和鲁棒的训练,甚至不需要预热、重量衰减、层归一化或自适应优化器。