Jun, 2023

揭示视频问答模型中联合多模态理解的幻觉

TL;DR通过 QUAG 探究 VideoQA Transformer 模型对于多模态结构与动态的理解,提出对于多模态 VideoQA 表示的可靠性检验,CLAVI Benchmark, 通过对反事实情景的测评,发现目前的模型在处理多模态 VideoQA 表示的亚优化方面有待改善。