BriefGPT.xyz
大模型
Ask
alpha
关键词
music-avqa dataset
搜索结果 - 2
面向动态音视情境的目标感知时空推理问题回答
本研究提出了一种针对音视频问答(AVQA)任务的目标感知联合时空基础网络,利用三种模态的一致性损失实现了问题感知的时空基础,增加了音频 - 视觉互动,采用了单一流结构中的融合方法,在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越
→
PDF
a year ago
CVPR
在动态音视频场景中学习回答问题
本文研究了 Audio-Visual Question Answering(AVQA)任务,提出了一个包含超过 45K 个问题 - 答案对的 MUSIC-AVQA 数据集并使用多模态知识和视听场景的时空推理来解决该问题,结果表明我们的方法优
→
PDF
2 years ago
Prev
Next