Feb, 2024
音频线索加强的音频视觉分割引导
Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues
Tianxiang Chen, Zhentao Tan, Tao Gong, Qi Chu, Yue Wu...
TL;DR提出了 AVSAC 方法,通过构建双向音频 - 视觉解码器并采用二向桥接设计,实现了音频线索的增强和音频与视觉模态之间的连续交互,从而缩小模态不平衡、促进整合音频 - 视觉表示的有效学习。此外,提出了音频 - 视觉帧同步策略,通过更好的同步音频组件与视觉特征,有助于更平衡的音频 - 视觉表示学习。大量实验证明,该方法在 AVS 性能方面取得了新的突破。