Jun, 2023

高效序列建模的稀疏模块激活

TL;DR本文介绍了一种名为 Sparse Modular Activation (SMA) 的机制,利用该机制设计的 SeqBoat 模型通过 SSM 学习了状态表示,实现了线性推理复杂度和理论上无限的注意力跨度,为一系列任务带来了新的最先进结果,并通过学习的稀疏激活模式揭示了每个任务所需的注意力数量和模式。