Feb, 2024

有效的 Transformer 是否真的节省计算量?

TL;DR我们研究了基于 Transformer 的语言模型,特别关注了 Sparse Transformer 和 Linear Transformer 的推理能力,并发现它们对一类动态规划问题更加有效。