Dec, 2023

跨模态事件相关的视频问答中的推理

TL;DR通过引入密集描述模态作为辅助信息,提出了一种新颖的端到端可训练模型,Event-Correlated Graph Neural Networks(EC-GNNs),以从三种模态(描述、视频和问题)中执行跨模态推理,并通过多步推理收集问题导向和事件相关证据。