May, 2023

傅里叶变换器:通过FFT算子消除序列冗余进行快速长距建模

TL;DR本文提出了 Fourier Transformer,该方法通过使用现成的快速傅里叶变换(FFT)算子来执行离散余弦变换(DCT)来逐步消除隐藏序列中的冗余信息以大大减少计算成本,同时保留了从各种大型预训练模型中继承权重的能力。结果表明,该模型在长距离建模基准LRA上实现了所有基于Transformer的模型中的最佳性能,在速度和空间方面均有显着改进。对于包括CNN/DailyMail和ELI5在内的生成 Seq-to-Seq 任务,通过继承 BART 权重,我们的模型优于标准 BART 和其他高效模型。