MMAug, 2023

音频 - 视觉问答的渐进时空感知

TL;DR为了更高效地回答关于视频中的视觉对象、声音及其关联的问题,本文提出了一种渐进式时空感知网络(PSTP-Net),通过三个模块逐步识别问题相关的关键时空区域。从公共数据集 MUSIC-AVQA 和 AVQA 的广泛实验结果来看,PSTP-Net 在有效性和效率上具备了令人信服的证据。