May, 2023

面向动态音视情境的目标感知时空推理问题回答

TL;DR本研究提出了一种针对音视频问答(AVQA)任务的目标感知联合时空基础网络,利用三种模态的一致性损失实现了问题感知的时空基础,增加了音频 - 视觉互动,采用了单一流结构中的融合方法,在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越性及其有效性。