Feb, 2024

音频线索加强的音频视觉分割引导

TL;DR提出了 AVSAC 方法,通过构建双向音频 - 视觉解码器并采用二向桥接设计,实现了音频线索的增强和音频与视觉模态之间的连续交互,从而缩小模态不平衡、促进整合音频 - 视觉表示的有效学习。此外,提出了音频 - 视觉帧同步策略,通过更好的同步音频组件与视觉特征,有助于更平衡的音频 - 视觉表示学习。大量实验证明,该方法在 AVS 性能方面取得了新的突破。