Oct, 2021
Pano-AVQA: 360°视频上基于感知的音视问题回答
Pano-AVQA: Grounded Audio-Visual Question Answering on 360$^\circ$
Videos
TL;DR本文提出了Pano-AVQA基准测试用于评估全景视频中音频-视觉关系和球形空间关系的语义理解。使用在线获取的5.4K个视频剪辑,收集了两种类型的新型问题-答案对。通过球形空间嵌入和多模态训练目标,使用多个基于Transformer的模型从Pano-AVQA中进行训练,结果表明我们的提出的球形空间嵌入和多模态训练目标对数据集上全景环境的语义理解有很好的帮助。