Jun, 2023
揭示视频问答模型中联合多模态理解的幻觉
Revealing the Illusion of Joint Multimodal Understanding in VideoQA Models
Ishaan Singh Rawal, Shantanu Jaiswal, Basura Fernando, Cheston Tan
TL;DR通过 QUAG 探究 VideoQA Transformer 模型对于多模态结构与动态的理解,提出对于多模态 VideoQA 表示的可靠性检验,CLAVI Benchmark, 通过对反事实情景的测评,发现目前的模型在处理多模态 VideoQA 表示的亚优化方面有待改善。