BriefGPT.xyz
大模型
Ask
alpha
关键词
streaming inference
搜索结果 - 1
高效的无限上下问 Transformer 与无限注意力
该研究介绍了一种有效的方法,用于将基于 Transformer 的大型语言模型扩展到无限长的输入,同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术,它将压缩性记忆融入到传统
→
PDF
3 months ago
Prev
Next