BriefGPT.xyz
Ask
alpha
关键词
tokenization-free autoregressive sequence modeling
搜索结果 - 1
MEGABYTE: 使用多尺度 Transformer 预测百万字节序列
我们提出了 Megabyte 模型,它是一种多尺度解码器结构,可以对超过一百万字节的序列进行端到端的微分建模,从而使自我注意力的时间复杂度进一步缩小,大量扩展了前馈层,实现了更好的并行处理能力,更高的性能和更低的成本,证明了无标记符自回归序
→
PDF
a year ago
Prev
Next