Mar, 2023

防止注意力熵崩塌以稳定Transformer训练

TL;DR本文通过追踪每层Transformer中attention head的注意熵来检验其训练动态。作者提出了一个名为entropy collapse的现象,即低的注意熵伴随着高的训练不稳定性,提出了一种简单高效的解决方案sigma Reparam可以避免这种现象,并进一步证明了注意熵的下限。作者在图像分类、自监督学习、机器翻译、自动语音识别和语言建模任务中测试了sigma Reparam,在各种Transformer结构中均能提供更稳定和鲁棒的训练,甚至不需要预热、重量衰减、层归一化或自适应优化器。