May, 2023

听觉分离:通过解混音指导语义分割

TL;DR本文提出了一种 Audio Unmixing and Semantic Segmentation Network (AUSS),通过音频解混和遮罩注意力机制,旨在建立音频流与图像像素之间的细粒度对应关系;为了增强模型的鲁棒性,还引入了自监督模块,在 AVSBench 基准测试上实验结果表明,AUSS 在单一源和多源训练集上都可以取得最新的最优效果,成功地缩小了音频和视觉模态之间的差距。