CVPRApr, 2023
语言模型是零 - shot 视频问答的因果知识提取器
Language Models are Causal Knowledge Extractors for Zero-shot Video Question Answering
Hung-Ting Su, Yulei Niu, Xudong Lin, Winston H. Hsu, Shih-Fu Chang
TL;DR提出了一种从语言模型中提取因果知识的框架 CaKE-LM,用于解决视频因果问答问题(CVidQA),并在 NExT-QA 和 Causal-VidQA 数据集上取得了显著的优势。