May, 2023

MEGABYTE: 使用多尺度 Transformer 预测百万字节序列

TL;DR我们提出了 Megabyte 模型,它是一种多尺度解码器结构,可以对超过一百万字节的序列进行端到端的微分建模,从而使自我注意力的时间复杂度进一步缩小,大量扩展了前馈层,实现了更好的并行处理能力,更高的性能和更低的成本,证明了无标记符自回归序列建模的可行性。