Apr, 2024

MoReVQA: 探索视频问答的模块化推理模型

TL;DR通过分解为多阶段的模块化推理框架来解决视频问答(videoQA)任务,我们的方法MoReVQA通过事件解析器、定位阶段、最终推理阶段和外部存储器在标准视频问答基准测试中取得了最先进的结果,并在相关任务(基于视频的问答、段落字幕生成)上得到扩展。