Oct, 2021
分层 Transformer 是更高效的语言模型
Hierarchical Transformers Are More Efficient Language Models
Piotr Nawrot, Szymon Tworkowski, Michał Tyrolski, Łukasz Kaiser, Yuhuai Wu...
TL;DR通过建立分层结构的 Transformer 模型 Hourglass,让 Transformer 可以更加高效地处理长序列,在 ImageNet32 生成任务方面表现出新的最先进,同时提高了在广泛研究的 enwik8 基准上的语言建模效率。