Oct, 2023

音像实例分割

TL;DR提出了一项名为音频 - 视觉实例分割(AVIS)的新的多模态任务,目标是在可听的视频中同时识别、分割和跟踪单个声音对象实例;构建了第一个 AVIS 标准数据集(AVISeg),以便更好地促进这项研究;提出了一个基于声音分支和跨模态融合模块的简单基准模型来定位所有声音对象,并通过在 AVISeg 上使用两种骨干模型进行评估来验证该方法。