IJCAISep, 2023

通过音频查询来发现声音对象用于音频视觉分割

TL;DR我们提出了一种基于音频查询的 Transformer 架构 (AQFormer),通过在视觉特征中利用预定义的音频查询聚集对象信息,建立了音频和视觉模态之间的明确的对象级语义对应关系,并提出了一种基于音频的时间交互模块来在多帧之间交换与声音对象相关的信息,实验结果证明我们的方法在两个 AVS 基准测试集上取得了最先进的性能,尤其在 MS3 设置上取得了 7.1% 的 M_J 增益和 7.6% 的 M_F 增益。