Jun, 2022

利用冻结的双向语言模型实现零样本视频问答

TL;DR本文介绍了一种基于冻结的双向语言模型的零样本视频问答方法,它使用轻量级的可训练模块将可视化输入与冻结的双向语言模型相结合,通过屏蔽的语言模型进行零样本视频问答推理,相较于目前现有的方法,在包括 LSMDC-FiB、iVQA、MSRVTT-QA、MSVD-QA、ActivityNet-QA、TGIF-FrameQA、How2QA 和 TVQA 等各种数据集上,取得了显著的优势,同时在少样本和完全监督的情况下也表现出了有竞争力的结果。