May, 2023
MEGABYTE: 使用多尺度 Transformer 预测百万字节序列
MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers
Lili Yu, Dániel Simig, Colin Flaherty, Armen Aghajanyan, Luke Zettlemoyer...
TL;DR我们提出了 Megabyte 模型,它是一种多尺度解码器结构,可以对超过一百万字节的序列进行端到端的微分建模,从而使自我注意力的时间复杂度进一步缩小,大量扩展了前馈层,实现了更好的并行处理能力,更高的性能和更低的成本,证明了无标记符自回归序列建模的可行性。