BriefGPT.xyz
大模型
Ask
alpha
关键词
target-aware joint spatio-temporal grounding network
搜索结果 - 1
面向动态音视情境的目标感知时空推理问题回答
本研究提出了一种针对音视频问答(AVQA)任务的目标感知联合时空基础网络,利用三种模态的一致性损失实现了问题感知的时空基础,增加了音频 - 视觉互动,采用了单一流结构中的融合方法,在 MUSIC-AVQA 数据集上的实验结果证明了该方法优越
→
PDF
a year ago
Prev
Next