Mar, 2022

在动态音视频场景中学习回答问题

TL;DR本文研究了Audio-Visual Question Answering(AVQA)任务,提出了一个包含超过45K个问题-答案对的MUSIC-AVQA数据集并使用多模态知识和视听场景的时空推理来解决该问题,结果表明我们的方法优于现有的A-V和AVQA方法。