Jun, 2024

SHMamba: 面向音视频问答的结构化双曲线状态空间模型

TL;DR提出了 SHMamba:结构化双曲状态空间模型,利用双曲几何和状态空间模型的优势,表示音频 - 视觉数据的分层结构和复杂关系。通过引入自适应曲率双曲对齐模块和交叉融合块,增强分层结构的理解和跨模态信息的动态交流。广泛实验证明,SHMamba 在参数和计算成本上优于以前的方法,参数减少 78.12%,平均性能提高 2.53%。实验证明我们的方法在当前主要方法中具有优势,并更适合实际应用场景。