Jun, 2024

Transformer 可以在全连接网络无法实现的情况下证明稀疏令牌选择的学习能力

TL;DR基于变形器架构的稀疏令牌选择任务分析,训练过程中表现出强大的某些任务的泛化能力。