Jun, 2024

将分割任何模型扩展到音频和时间维度进行音频-视觉分割

TL;DR通过分析视频帧之间的上下文跨模态关系,研究将Segment Anything Model (SAM) 的能力扩展到音频-视觉场景序列,提出了一个融合了空时双向音频-视觉注意力(ST-BAVA)模块的模型,实现了对音频-视觉关联的像素级理解,实验结果表明该模型在音频-视觉分割任务中表现优于其他方法,尤其是在具有多个源的数据集上获得了8.3%的平均交并比增益。