Jan, 2025

可扩展Softmax在注意力机制中的优越性

TL;DR本研究解决了现有Softmax在处理长输入向量时导致注意力分布扁平化的问题,从而限制了模型对关键信息的重视和长度泛化能力。我们提出的可扩展Softmax(SSMax)可以无缝集成到现有的Transformer架构,实验结果表明采用SSMax的模型在长上下文和关键信息检索中表现显著优于传统方式,同时实现了更快的训练损失降低。