May, 2023

无需注释的音视频分割

TL;DR本文提出了一种用于定位视觉场景中声音对象的 Audio-Visual Segmentation (AVS) 的方法,其中使用了缩放和无注释的管道来生成 AVS 模型的合成数据,还提出了一种 Audio-Aware Transformer (AuTR) 结构,具有音频感知的查询式变压器解码器,以使模型更准确地进行分割。作者在合成和实际数据集上进行了广泛的实验,并取得了很好的效果。