关键词sparse attention patterns
搜索结果 - 2
- ACLLOCOST: 面向长文档提要生成的状态空间模型
LOCOST 是基于状态空间模型的编码器 - 解码器结构,用于带有长上下文输入的条件文本生成,具有低复杂度的计算和能够处理超长序列的能力。在长篇摘要任务上评估模型,其性能可与同等规模的顶级稀疏转换器相媲美,同时在训练过程中节省高达 50% - Combiner: 具有稀疏计算成本的全关注力变换器
提出了一种名为 Combiner 的替代 transformers 中的 attention layers 的方法,其通过利用结构化分解的条件分布来近似自我关注机制,实现了每个关注头的完全关注能力,同时保持低计算和内存复杂性。在自回归和双向