May, 2023

视频问答的视觉因果场景细化

TL;DR本文提出一种名为 VCSR 的跨模态因果关系推理框架,通过因果分析发现视频中关键的因果事件,解决了现有视频问答方法在识别视觉证据和问题方面的失败。实验表明,该方法在视频问答中表现出卓越的性能。