ICCVOct, 2021

Pano-AVQA: 360° 视频上基于感知的音视问题回答

TL;DR本文提出了 Pano-AVQA 基准测试用于评估全景视频中音频 - 视觉关系和球形空间关系的语义理解。使用在线获取的 5.4K 个视频剪辑,收集了两种类型的新型问题 - 答案对。通过球形空间嵌入和多模态训练目标,使用多个基于 Transformer 的模型从 Pano-AVQA 中进行训练,结果表明我们的提出的球形空间嵌入和多模态训练目标对数据集上全景环境的语义理解有很好的帮助。