ICLROct, 2021

PoNet: 长序列中高效的令牌混合池化网络

TL;DR本文提出了一种新的 Pooling Network (PoNet),它使用线性复杂度的 token mixing 处理长序列,通过多粒度池化和池化融合来捕获不同级别的上下文信息,并结合 tokens 进行交互来提高模型性能。在长范围竞技基准测试中,PoNet 显著优于 Transformer,同时实现与最快模型 FNet 相当的准确性,在 GPU 上度量所有序列长度时仅比最快模型慢一点。同时文章也进行了系统的研究,证明了 PoNet 设计的多粒度池化和池化融合的加强长序列的 token 混合以及设计的预训练任务可用于学习可转移的上下文化语言表示的有效性。