CVPRMar, 2022

在动态音视频场景中学习回答问题

TL;DR本文研究了 Audio-Visual Question Answering(AVQA)任务,提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题,结果表明我们的方法优于现有的 A-V 和 AVQA 方法。