Feb, 2024

CAST: 使用替代标记的聚类自注意力以提高 Transformer 效率

TL;DR基于自注意力机制的转换器架构,提出了一种使用代理符号的聚类自注意力机制(CAST),用于优化注意力计算并实现高效的转换器。CAST 通过减少复杂度从 O(N^2)到 O(αN),N 为序列长度,α 是按照聚类的数量和每个聚类的样本数而定的常数,实现了更高的时间和内存效率。