BriefGPT.xyz
Ask
alpha
关键词
local-global attention layers
搜索结果 - 1
扩展上下文窗口的逐层分组局部全局注意力
介绍了一种增强大型语言模型在处理和理解大量文本序列方面能力的新方法,通过提出一种名为斑马的新型模型架构,有效地处理了 Transformer 中全注意力所带来的二次时间和内存复杂度问题,通过使用分组的局部 - 全局注意力层平衡局部和全局注意
→
PDF
7 months ago
Prev
Next