Feb, 2024
有效的 Transformer 是否真的节省计算量?
Do Efficient Transformers Really Save Computation?
Kai Yang, Jan Ackermann, Zhenyu He, Guhao Feng, Bohang Zhang...
TL;DR我们研究了基于 Transformer 的语言模型,特别关注了 Sparse Transformer 和 Linear Transformer 的推理能力,并发现它们对一类动态规划问题更加有效。