May, 2023

AV-SAM: 模型将任何物体分割与视听定位相结合

TL;DR本文提出了基于 SAM 模型的简单而有效的音频 - 视觉定位和分割框架 AV-SAM,可以生成对应于音频的听觉对象掩模,实现像声音定位和分割等视听任务。