Sep, 2024

无蒸馏的大规模状态空间模型在图像和视频中的扩展

TL;DR本研究解决了大规模状态空间模型(SSMs)在图像分类和动作识别中的可扩展性问题,特别是针对Mamba模型无法有效扩展参数数量的限制。通过提出一种Mamba-注意力交错架构,该研究显著提升了可扩展性、鲁棒性和性能,且在多个基准测试中展现了相较于现有模型高出1.7的准确率提升。