May, 2024

关注掩码和层归一化在 Transformer 中的作用

TL;DR通过分析自我注意力机制和层标准化对秩崩溃的影响,本文发现层标准化在自我注意力的秩崩溃中起到了关键作用,为自我注意力提供了更富表现力、多功能的非线性动力系统。