Jul, 2023
音频感知的查询增强变换器用于音频 - 视觉分割
Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation
Jinxiang Liu, Chen Ju, Chaofan Ma, Yanfeng Wang, Yu Wang...
TL;DR通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征,我们提出了一种新颖的音频感知查询增强转换器 (AuTR),用于解决音频 - 视觉分割任务。实验结果表明,我们的方法在多声音和开放场景中具有更好的普适性和性能优势。