May, 2023
Vcc: 通过优先考虑重要标记来将 Transformer 扩展到 128K 标记或更多
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens
Zhanpeng Zeng, Cole Hawkins, Mingyi Hong, Aston Zhang, Nikolaos Pappas...
TL;DR本文提出了一种基于 VIP-Token 的压缩方案,能够显著减少 Transformer 模型对 n 的复杂度依赖,大大提高了超长序列的处理效率,并在多个任务上表现出了优秀的性能和扩展性。