CVPRMar, 2024

通过令牌扩展的 Transformer 通用高效训练

TL;DR我们提出了一种名为 ToE 的新型令牌增长方案,用于实现 ViTs 的一致训练加速,通过维护原始 Transformer 的中间特征分布的完整性,防止训练过程中关键可学习信息的丢失。实验结果表明,ToE 无损地实现了约 1.3 倍的 ViTs 训练加速,甚至在全令牌训练基准上取得了性能提升。