Sep, 2024

基于BEST-RQ的线性复杂度注意力替代方法分析

TL;DR本研究针对自监督学习中的多头自注意力计算和内存消耗过大的问题,探讨了几种具有线性复杂度的新替代方案,包括HyperMixing、Fastformer、SummaryMixing和Mamba。研究结果表明,这些线性替代方案在保持竞争性性能的同时,平均减少了20%至60%的内存消耗,并在处理输入序列时速度提升了7%至65%。