BriefGPT.xyz
大模型
Ask
alpha
关键词
long-context language modeling
搜索结果 - 2
高效的无限上下问 Transformer 与无限注意力
该研究介绍了一种有效的方法,用于将基于 Transformer 的大型语言模型扩展到无限长的输入,同时保证有界的内存和计算。我们提出的方法的关键组成部分是一种称为 Infini-attention 的新的注意力技术,它将压缩性记忆融入到传统
→
PDF
3 months ago
通过可扩展的分词技术灵活扩展大型语言模型的上下文
本文介绍了可拓展分词作为一种可选方法,可实现大语言模型(LLMs)上下文的灵活扩展,以提供更多信息。经过综合实验证明,可拓展分词是一种有效、高效、灵活和兼容的方法,可扩展 LLMs 的上下文。
PDF
6 months ago
Prev
Next