Jun, 2024

渐进自信遮罩注意力网络用于音频 - 视觉分割

TL;DR通过引入渐进自信掩蔽注意力网络(PMCANet),利用注意机制揭示音频信号和视觉帧之间的内在相关性,并设计了高效且有效的跨注意模块来通过选择查询标记增强语义感知。实验证明,我们的网络在需要更少的计算资源的情况下比其他 AVS 方法表现更好。