关键词long-range sequence modeling
搜索结果 - 2
- CAST: 使用替代标记的聚类自注意力以提高 Transformer 效率
基于自注意力机制的转换器架构,提出了一种使用代理符号的聚类自注意力机制(CAST),用于优化注意力计算并实现高效的转换器。CAST 通过减少复杂度从 O(N^2)到 O(αN),N 为序列长度,α 是按照聚类的数量和每个聚类的样本数而定的常 - 序列建模的简化状态空间层
介绍了基于深度学习、HiPPO 形式和线性状态空间模型的结构化状态空间序列(S4)层,以及在其基础上引入了一种新的状态空间层 ——S5 层。与 S4 层使用多个独立的 SSM 相比,S5 层使用一个多输入、多输出的 SSM,从而实现了更高的