Sep, 2023

利用基础模型进行无监督音频 - 视觉分割

TL;DR语音 - 视觉分割(AVS)通过像素级精确在视觉场景中描绘可听到的对象。我们提出了一种新的跨模态语义过滤(CMSF)方法,以解决这个问题,并利用现成的多模态基础模型来准确地关联潜在的音频 - 掩码对。我们的无监督方法在复杂情景中的多个听觉对象上表现优异,特别是在现有监督 AVS 方法在重叠前景对象方面表现困难的情况下,仍能准确地分割重叠的听觉对象。