Feb, 2024

有效的Transformer是否真的节省计算量?

TL;DR我们研究了基于Transformer的语言模型,特别关注了Sparse Transformer和Linear Transformer的推理能力,并发现它们对一类动态规划问题更加有效。