CVPRApr, 2024
MoReVQA: 探索视频问答的模块化推理模型
MoReVQA: Exploring Modular Reasoning Models for Video Question Answering
Juhong Min, Shyamal Buch, Arsha Nagrani, Minsu Cho, Cordelia Schmid
TL;DR通过分解为多阶段的模块化推理框架来解决视频问答(videoQA)任务,我们的方法 MoReVQA 通过事件解析器、定位阶段、最终推理阶段和外部存储器在标准视频问答基准测试中取得了最先进的结果,并在相关任务(基于视频的问答、段落字幕生成)上得到扩展。