EMNLPOct, 2023

大型语言模型是视频问答中的时间和因果推理器

TL;DR通过使用 Flipped-VQA 框架,我们成功应用于 LLaMA-VQA 和其它 LLMs 模型,取得了在五个具有挑战性的 VideoQA 基准测试中优于基于 LLMs 和非 LLMs 模型的结果,并且实验证明 Flipped-VQA 不仅增强了语言快捷方式的利用,还减轻了由于过度依赖问题而导致错误答案的语言偏见。