BriefGPT.xyz
Ask
alpha
关键词
spatial region selection
搜索结果 - 1
MM
音频 - 视觉问答的渐进时空感知
为了更高效地回答关于视频中的视觉对象、声音及其关联的问题,本文提出了一种渐进式时空感知网络(PSTP-Net),通过三个模块逐步识别问题相关的关键时空区域。从公共数据集 MUSIC-AVQA 和 AVQA 的广泛实验结果来看,PSTP-Ne
→
PDF
a year ago
Prev
Next