Jul, 2023

音频感知的查询增强变换器用于音频 - 视觉分割

TL;DR通过引入多模式变压器架构来深度融合和聚合音频 - 视觉特征,我们提出了一种新颖的音频感知查询增强转换器 (AuTR),用于解决音频 - 视觉分割任务。实验结果表明,我们的方法在多声音和开放场景中具有更好的普适性和性能优势。