May, 2023

Vcc: 通过优先考虑重要标记来将 Transformer 扩展到 128K 标记或更多

TL;DR本文提出了一种基于 VIP-Token 的压缩方案,能够显著减少 Transformer 模型对 n 的复杂度依赖,大大提高了超长序列的处理效率,并在多个任务上表现出了优秀的性能和扩展性。