Sep, 2023

CATR:组合依赖音频查询变压器用于音频视觉视频分割

TL;DR提出了一种分离的音频 - 视频变换器,通过结合音频和视频的时间和空间维度的特征,捕捉它们的联合依赖性,并在解码阶段引入音频约束和对象级信息,从而实现与音频方向相符的音频 - 视觉视频分割,达到了三个数据集上的先进水平。