May, 2023

TG-VQA:三元游戏视频问答

TL;DR本研究尝试通过博弈论的交互策略来实现细粒度的视频问答任务中的视觉语义对齐,无需过多的标注,相比现有方法,在长期和短期视频问答数据集上的效果有显著提升,并具有良好的泛化能力和在有限数据上的并行收敛能力。